🧠 인간처럼 생각하는 AI? 정체성과 정치적 인식까지 재현하는 언어모델 연구 소개
최근 몇 년 사이, GPT나 Claude 같은 대형 언어모델(Large Language Models, LLMs)이 마치 사람처럼 의견을 표현하고, 성격을 갖춘 것처럼 행동하는 모습을 보여주면서 큰 주목을 받고 있죠. 그런데, 이런 모델들이 정말로 인간처럼 ‘정체성’과 ‘사회적 인식’을 재현할 수 있을까요?
2025년 발표된 논문, **“Higher-Order Binding of Language Model Virtual Personas”**는 바로 이 질문을 실험적으로 파고듭니다. 특히 정치적 양극화와 사회집단에 대한 인식 편향이라는 뜨거운 주제를 다룹니다.
📚 기존 연구는 어디까지 왔을까?
먼저 기존 연구를 보면, 언어모델이 사람처럼 의견을 표현할 수 있다는 연구들이 다수 있습니다. 예컨대, Park et al. (2023)와 Moon et al. (2024)은 언어모델에 가상의 인물 정보(성별, 나이, 정당 성향 등)를 주면 실제 인간과 유사한 응답을 생성한다고 밝혔습니다. Ziems et al. (2023), Dillion et al. (2023), Simmons (2022), Bail (2024) 등도 유사한 실험을 했죠.
그러나 대부분의 연구는 **“이 사람이 어떤 의견을 가졌을까?”**라는 **1차적인 수준(self-opinion)**의 질문에만 집중했습니다.
하지만 인간의 생각은 그보다 훨씬 복잡합니다. 우리는 다른 집단(예: 정치 반대 진영)을 어떻게 보는지, 그들이 우리를 어떻게 볼 것 같은지도 고민하죠. 이런 **2차적, 3차적 인식(metaperception)**까지 언어모델이 구현할 수 있을까요?
🧠 이론적 배경: 사회적 정체성과 메타 인식
이 연구는 사회심리학 이론을 기반으로 합니다. Cooley (1902)의 명언처럼, "나는 내가 생각하는 내가 아니라, 너가 생각하는 나라고 생각하는 나다"라는 개념, 즉 **사회적 반영(self-reflectivity)**이 핵심입니다.
- Tajfel & Turner (1979, 1986)의 사회정체성 이론
- Chambers et al. (2006), Lees & Cikara (2020), Waytz et al. (2014)의 집단 간 인식 연구
- Moore-Berg et al. (2020), Braley et al. (2023)의 정치적 메타편향 연구
이런 연구들은 인간이 정치적 집단을 기준으로 서로를 어떻게 오해하고 과장하는지 보여줍니다. 이 논문은 LLM이 이런 복잡한 사회적 인식을 모방할 수 있는가를 시험합니다.
🧪 방법론: 더 길고, 더 사실적인 ‘가상 인간’ 백스토리 만들기
이 논문이 기존 연구들과 가장 뚜렷하게 차별화되는 지점은 바로 **‘가상 인물(persona)’을 어떻게 더 진짜 사람처럼 만들 수 있을까?**라는 질문에 대해 철저하고 구체적인 방법론을 제시한 부분입니다.
기존 연구에서는 언어모델에게 “당신은 40대 백인 남성, 공화당원입니다”처럼 간단한 프로필 정보만을 제공하고, 이 프로필을 바탕으로 모델의 응답을 유도했습니다. 그런데 이런 방식으로는 언어모델이 그 사람의 가치관, 성장 배경, 세계관을 제대로 이해하거나 반영하기 어렵습니다. 마치 이력서 한 줄 보고 사람의 생각을 추측하려는 것과 다르지 않죠.
그래서 저자들은 한층 발전된 방법, 즉 **‘백스토리 기반 가상 인물 생성(backstory-conditioned virtual personas)’**이라는 새로운 방식을 제안합니다. 이 방식은 단순한 프로필을 넘어서, 한 개인의 삶을 구체적이고 사실적으로 서술하는 긴 내러티브를 생성하고, 이를 언어모델의 조건(context)으로 주어 더욱 인간에 가까운 응답을 유도합니다.
🎤 인터뷰 방식의 다층적 백스토리 생성
저자들은 “Tell me about yourself”라는 단일 질문으로 얻는 단편적인 자소서 스타일 텍스트로는 한계가 있다고 판단합니다. 대신, 인터뷰 형식의 다중 질의응답을 통해 훨씬 더 사실적인 백스토리를 생성하는 방식을 고안했습니다.
- 실제 질문 기반: 미국 Stanford 대학의 American Voices Project에서 사용한 구술 역사(oral history) 질문 목록을 차용했습니다. 예를 들면 다음과 같은 질문들입니다:
- 당신의 인생 이야기를 처음부터 들려주세요.
- 지금 살고 있는 동네는 어떤 곳인가요?
- 당신의 정치적 견해를 설명해주세요.
- 인생에서 중요했던 사건은 무엇이었나요?
- 다중 턴 대화 방식: 한 번에 다 쓰게 하는 것이 아니라, 질문 하나마다 언어모델이 자연스럽게 응답하도록 만들어 진짜 인터뷰처럼 스토리가 구성되도록 했습니다.
- 길이와 깊이: 이 방식으로 생성된 백스토리들은 평균 2,500 토큰, 길게는 5,000 토큰을 넘기기도 했습니다. 이는 기존 연구(Moon et al., 2024)의 평균 470 토큰 수준보다 10배 이상 길고 복잡한 서술입니다.
결과적으로, 이러한 백스토리는 **정치 성향, 가족관계, 경제적 배경, 교육 수준, 직업 경험, 심지어 종교적 신념까지 녹여낸 '한 사람의 삶의 이야기'**가 되며, 언어모델은 이 이야기를 바탕으로 이후 정치적 질문에 응답하게 됩니다.
🔍 LLM 비평가(critic)를 활용한 자동 품질 검수
긴 백스토리를 생성하면 당연히 논리적 오류나 일관성 문제가 발생할 수 있습니다. 예를 들어:
- 앞에서는 “나는 캘리포니아 출신입니다”라고 했는데, 나중에는 “어릴 적부터 텍사스에서 살았습니다”라고 말할 수도 있고,
- “내 직업은 간호사입니다”라고 해놓고, 나중엔 “저는 평생 은행에서 일했습니다”라고 말할 수도 있습니다.
이런 팩트 오류, 주제 일탈, 의미 없는 문장 등을 사람이 일일이 검토하기에는 수많은 백스토리를 생성해야 하는 상황에서는 비효율적입니다.
그래서 이 논문은 **“LLM이 생성한 문장을, 또 다른 LLM이 검토하게 만드는 이중 구조”**를 도입합니다. 이걸 LLM-as-a-Critic이라 부르죠.
- 예를 들어 GPT-4나 Gemini-2.0 같은 고성능 언어모델에게 “이 백스토리에 모순이 있는가?”라는 평가 역할을 맡깁니다.
- 다음과 같은 기준으로 불합격 텍스트를 걸러냅니다:
- 논리적 모순 (태어난 지역이나 가족 관계 등)
- 질문에 대한 비답 (예: 의미 없는 문장, 메타 정보, 코드 스니펫 등)
- 반복, 말 바꾸기, 질문 되풀이 등 대화 구조 오류
이런 방식으로 검토한 후, 문제 있는 백스토리는 **재생성(resample)**되며, 이렇게 걸러진 고품질 백스토리만 실험에 사용됩니다.
⚙️ 사용된 모델과 생성 방식의 기술적 디테일
- 사용된 언어모델: Mistral-Small (24B), LLaMA-2/3 (70B), Qwen2.5 등 거대한 open-source LLM 사용
- 생성 설정:
- Sampling temperature = 1.0 → 다양하고 자연스러운 서술 유도
- Repetition penalty 없이 생성해 자유로운 서술을 유도
- 총 생성 수: 40,000개 이상의 백스토리
- 후처리:
- 생성된 인물에 대해 인종, 나이, 성별, 소득, 교육 수준, 정치 성향 등의 민감 정보 태깅
- 이후 정치 심리학 설문에서 동일한 인물(혹은 유사한 속성의 사람)들과 정확히 매칭하여 비교
🎯 핵심 목표: 정체성과 사회적 인식을 진짜처럼 반영
이 모든 방식은 하나의 목표를 위해 존재합니다. 바로 **“이 인물은 어떤 세계를 살아왔고, 어떤 방식으로 정치적 현실을 해석할까?”**라는 것을 최대한 진짜처럼 시뮬레이션하기 위해서입니다.
단순히 "나는 민주당원이야"가 아니라,
→ “나는 젊은 시절 노동조합 활동을 했고, 어머니가 사회복지사였고, 그래서 민주당의 노동 정책에 깊은 신뢰를 가지고 있다”고 말할 수 있는 맥락 기반의 정치 태도 형성을 모델링하는 것입니다.
이러한 방식은 향후 LLM이 정교한 사회 실험 도구로 활용될 수 있음을 시사합니다.
📊 실험: LLM이 사람처럼 오해할 수 있을까?
이제 중요한 실험입니다. 이 논문은 단순히 “의견을 잘 흉내낸다” 수준을 넘어서, 인간처럼 정치적 인식 오류까지 흉내낼 수 있는가를 실험합니다. 총 세 가지 실험이 있었는데요, 모두 실제 미국 설문조사 데이터를 기반으로 설계되었어요.
① 자기 집단 vs. 상대 집단 인식 차이 (ATP Wave 110, Pew Research Center)
실험 내용
사람들이 자신의 정치 집단(예: 민주당원)은 도덕적, 지적, 개방적이라고 평가하는 반면, 반대 정당은 비도덕적이고 폐쇄적이라고 평가하는 **'호의/적대성 평가의 비대칭'**을 측정합니다.
측정 지표
- Hostility Gap: 내 집단과 상대 집단에 대해 평가한 차이
- Cohen’s d: 효과 크기 (차이의 강도)
- Wasserstein Distance (WD): LLM 응답과 인간 응답 간의 분포 유사도
결과 요약
- 이 논문에서 제안한 방식(백스토리 기반)이 가장 낮은 WD, 즉 인간과 가장 가까운 응답을 보여줌
- 특히 Democrat와 Republican 모두에서 인식 차이를 유사하게 재현
② 민주주의 훼손에 대한 인식 왜곡 (Braley et al., 2023)
실험 내용
사람들이 반대 정당이 민주주의 규범을 위반할 가능성을 과장해서 평가한다는 점에 주목합니다.
예: “공화당은 법을 어겨서라도 자기 이익을 챙길 거야”라는 식의 인식
측정 지표
- Subversion Gap: 상대 정당이 민주주의를 무너뜨릴 거라는 과장된 믿음
- Cohen’s d, WD 동일하게 측정
결과 요약
- 백스토리 기반 LLM은 이 과장된 인식을 가장 잘 재현
- 특히 Generative Agent 같은 기존 강력한 프레임워크는 효과 크기를 너무 과장(= 인간보다 더 편향적)하는 경향이 있었음
③ 메타 인식: “상대 정당이 나를 어떻게 볼까?” (Moore-Berg et al., 2020)
실험 내용
우리는 종종 상대 정당이 우리를 실제보다 더 부정적으로 평가할 것이라고 믿는 경향이 있습니다. 이걸 **메타 인식 편향(meta-perception bias)**이라고 합니다.
예: “공화당은 우리 민주당을 아주 싫어할 거야”라는 생각이 실제보다 과장되어 있음
측정 지표
- Meta-Perception Gap: 실제 평가 vs. 타인이 생각하는 평가의 차이
- WD, Cohen’s d
결과 요약
- 백스토리 기반 모델은 과장된 메타 인식을 가장 정확히 재현
- 일부 LLM은 아예 방향을 잘못 이해해 “공화당이 민주당을 더 좋게 평가할 거야”라는 식의 반대 방향 오류를 내기도 함
📈 전체 성능 요약
자기 집단 인식 | 인간과 매우 유사한 분포 | QA, Bio, Portray보다 우수 |
상대 정당에 대한 부정적 인식 | 과장된 경향 재현에 탁월 | Generative Agent보다 안정적 |
메타 인식 (상대가 나를 어떻게 볼까) | 방향성과 강도 모두 정확 | LLaMA3.1, GPT-4o는 방향도 틀림 |
📁 부록 A: 어떻게 현실감 있는 백스토리를 만들었을까?
연구팀은 실제 인터뷰처럼 구성된 백스토리를 생성하기 위해 미국 스탠퍼드대의 American Voices Project 질문지를 일부 활용했어요. 총 10개의 질문이 있으며, 질문은 다음과 같은 인생 이야기 중심입니다:
Q1 | 당신의 삶 전체를 이야기해 주세요. 어린 시절, 교육, 가족, 인생의 전환점 등 |
Q2 | 인생의 갈림길에서 중요한 선택을 한 적이 있다면, 그 이야기를 들려주세요. |
Q3 | 가족 외에 중요한 친구나 연인이 있다면 누구인지 설명해주세요. |
Q4 | 현재 사는 동네에 대해 설명해주세요. |
Q5 | 최근 일상에서 변화된 점이 있다면? |
Q6 | 정치적 견해는 어떻게 되시나요? |
Q7 | 최근 미국에서 인종 문제를 어떻게 바라보시나요? |
Q8 | 건강을 유지하기 쉬운 점, 어려운 점은 무엇인가요? |
Q9 | 백신에 대해 어떻게 생각하시나요? |
Q10 | 정신건강에 대해 고민한 적이 있으신가요? |
핵심 포인트는 다음과 같습니다:
- 각 질문에 대해 LLM이 작성한 응답은 이전의 모든 Q&A 내용을 ‘맥락’으로 받아들이고 이어서 작성됩니다. → 점점 쌓이는 이야기 구조를 가집니다.
- 예를 들어 Q3(친구와 관계)에 답할 때, Q1과 Q2(삶의 이야기, 중요한 전환점) 응답을 참고하면서 일관된 인물로 유지되도록 설계됩니다.
- 생성된 백스토리는 **LLM 비평가(critic)**가 검토하여, 논리적 모순이나 의미 없는 내용은 걸러냅니다.
🎤 예시: 민주당 & 공화당 성향 백스토리
- 민주당 유저 예시:
- 인도 출신 이민자 가족, 음악과 작문을 좋아함, 리버럴한 사회 이슈에 찬성하지만 경제 문제에선 보수적.
- 건강, 인종 문제, 정신건강, 백신 등에서 진보적이고 포용적인 시각을 지님.
- 공화당 유저 예시:
- 미시간 출신, 가족 책임감을 강조하며 종교적 가치 중시.
- 보수적인 재정관, 공동체 가치 중시, 변화를 무조건 지지하기보다 신중함을 강조.
이렇게 각각 뚜렷한 삶의 서사와 세계관을 가진 인물들이 생성되어, 정치적 태도를 설명할 수 있는 설문에 응답하게 되는 구조입니다.
📊 부록 B: 백스토리는 기존 데이터와 어떻게 다를까? (N그램 분석)
LLM이 만들어낸 백스토리가 실제 훈련 데이터와 얼마나 유사한지 확인하기 위해 n-gram 빈도 비교 분석도 진행했습니다.
- 비교 대상: C4 데이터셋 (약 2.3TB, 웹 기반 대형 말뭉치)
- 랜덤 샘플 / 소셜미디어/블로그 기반 필터 샘플로 나누어 분석
🔍 결과 요약
- 백스토리에서 자주 쓰인 표현들:
- “I was born and raised in…”
- “mental health is just as important as physical health”
- “I grew up in a small town in…”
- “My current neighborhood is…”
- 반면 C4 데이터에서는:
- “accept cookies”, “terms of use” 등 웹 페이지 요소나 광고 표현이 다수 등장
- “New York”이나 “small town” 같은 단어도 맥락이 달라, 스포츠팀 리스트, 위치 소개 등으로 사용됨
결론: 백스토리는 LLM의 훈련 데이터와 문장 단위 n-gram 수준에서 겹치는 부분은 있으나, 전체 문맥이나 서사 구조는 훨씬 더 내러티브 중심의 인간적 글쓰기로 구성되어 있다는 점에서 차별화됩니다.
📐 부록 C: 실험 결과의 통계적 유의성 (t-통계)
모델이 만든 응답과 인간의 응답 사이의 ‘인식 격차’가 실제로 통계적으로 유의미한지 확인하기 위해, 각 실험별로 **t-통계량(t-statistic)**을 계산했습니다.
- 대부분의 결과에서, 연구팀의 방식(Ours)은 p < 0.001 수준으로 유의미한 차이를 보여주었고,
- 특히 Subversion Dilemma 실험에서는 모든 조건에서 t > 12 이상으로, 인간의 판단 패턴을 매우 유사하게 재현했습니다.
📋 부록 D: 사용된 설문 문항
✅ Pew Research ATP Wave 110 (2022)
- 표본 수: 총 6,174명 (민주당 1,886명 / 공화당 1,551명 등)
- 대표성: 미국 인구 전체를 반영하도록 무작위 가구 표본 추출 → 성별, 인종, 교육 수준 등 가중치 적용
- 문항 예시:
- 민주당은 다른 미국인보다 더 도덕적이라고 생각하십니까?
- 공화당은 더 게으르다고 보십니까?
- 각 정당이 더 정직하다고 생각합니까?
질문은 도덕성, 근면성, 개방성, 지능, 정직성 등 5개 영역을 양 정당에 대해 반복해서 묻는 구조입니다.
✅ Subversion Dilemma (Braley et al., 2023)
- 표본 수: 1,536명 (공화당 723명 / 민주당 813명)
- 문항: 총 24문항 (자기 정당이 민주주의 훼손할 가능성 / 상대 정당이 그렇게 볼 것이라는 메타 인식)
- 예시:
- 대부분의 민주당원은 공화당 판결을 무시할 것이라고 생각하십니까?
🧬 부록 F: 인구통계 기반 ‘가상 인물’ 매칭 방법
실제 설문 참가자의 응답 분포를 가상의 LLM 인물과 정확히 비교하기 위해, **인구통계적 특성(성별, 연령, 인종 등)**을 기준으로 정밀한 매칭을 진행했습니다.
- 전체 구조:
- 인간 사용자 집합 H와 가상 인물 집합 V를 이분 그래프로 연결
- 각 가상 인물은 확률 분포로 특성 보유 (ex. 백인일 확률 80%, 민주당일 확률 60% 등)
- 모든 연결선에 대해 확률 기반의 ‘유사도(weight)’ 계산
- 최종 매칭 방법: 헝가리안 알고리즘 (Kuhn, 1955) 사용하여 최대 가중치 매칭 수행
이렇게 하면, 실제 설문 참가자의 분포와 일치하는 가상의 인물 그룹을 구성할 수 있습니다.
🧠 부록 G: Generative Agent 프레임워크 비교 방식
이 연구는 자체적인 백스토리 기반 응답 방식 외에도, 비교 실험으로 **Generative Agent 방식 (Park et al., 2024a)**을 도입했습니다.
- 단계별 절차:
- 인터뷰 백스토리를 GPT-4o에게 전달
- 정치학자 역할의 전문가 LLM이 백스토리를 바탕으로 참여자의 성향에 대해 5~20개의 고차원 관찰(예: 이 사람은 경제적으로는 보수적이다)을 생성
- 그 뒤, 각각의 설문 문항에 대해 다음 순서로 응답 생성:
- 옵션에 대한 일반적 해석 (“이런 선택을 하는 사람은 어떤 사람일까?”)
- 응답자가 그 선택을 할 이유는 무엇일까?
- 가장 가능성 높은 옵션은 무엇일까?
- 최종 응답 추론 (직관적 결정)
결과는 JSON 형식으로 자동 처리되어, 연구자가 응답 패턴을 평가할 수 있게 됩니다.
이 부록들을 통해 알 수 있는 핵심은 다음과 같습니다:
✅ 단순히 ‘언어를 잘 다루는 AI’가 아니라,
인간처럼 사고하고, 맥락 속에서 판단하는 AI를 만드는 데 필요한 구체적 기술들이 매우 섬세하게 설계되어 있다는 점입니다.
백스토리 생성 → 정밀 검증 → 인구통계 매칭 → 실험 설계 → 통계 검증이라는 정합적인 구조 덕분에, 이 논문은 정치심리학, 인간 인식, LLM 시뮬레이션 모두에 중요한 시사점을 제공합니다.