[Survey/LLM 정치학] Abeliuk et al (2025) LLM이 서베이 대체할때 국가별로 공정할까?
대형 언어 모델(LLM)을 활용한 설문 조사 공정성 연구: 미국과 칠레를 비교하다
최근 대형 언어 모델(LLM)은 텍스트 생성과 이해 능력을 뛰어넘어, 사회·정치·경제적 패턴을 모사하는 데 활용되고 있다. 특히, 전통적인 설문 조사와 유사한 방식으로 데이터를 생성하고 분석하는 연구가 활발히 이루어지고 있다. 하지만 이러한 모델들이 다양한 사회·문화적 맥락에서 공정하게 작동하는지에 대한 논의는 아직 부족한 상황이다. 이번 연구에서는 LLM이 설문 조사 데이터를 어떻게 처리하며, 미국과 칠레라는 서로 다른 사회·정치적 환경에서 얼마나 정확하고 공정하게 예측하는지를 분석했다.
LLM이 설문 조사 대체 가능할까? 연구 배경과 문제의식
기존 연구들은 LLM이 인간과 유사한 응답을 생성할 수 있으며, 투표 성향 예측, 여론 분석, 경제적 행태 연구 등 다양한 사회과학 분야에서 활용 가능함을 보여주었다. 특히, GPT 시리즈를 포함한 여러 LLM이 대규모 언어 데이터를 학습하며 사람들의 의견과 행동 패턴을 반영할 수 있는 가능성을 제시해왔다.
그러나 이러한 모델들이 특정 국가나 문화에 편향될 가능성이 제기되고 있다. 대부분의 LLM이 영어 기반 데이터, 특히 미국 중심 데이터를 학습했기 때문에 비(非)영어권 국가나 다양한 인구 집단을 공정하게 대표할 수 있는지에 대한 검토가 필요하다. 이에 본 연구는 미국과 칠레의 실제 공공 설문 조사 데이터를 활용하여 LLM의 예측 정확도와 편향성을 비교·분석했다.
연구 방법론: 미국과 칠레 데이터를 활용한 비교 실험
1) 예측 실험 설계
연구진은 LLM이 설문 조사 데이터를 기반으로 투표 성향과 사회적 의견을 얼마나 정확하게 예측할 수 있는지를 확인하기 위해 다음 세 가지 예측 실험을 설계했다.
- 대선 투표 예측: 미국(2020년 대선)과 칠레(2021년 대선 결선 투표) 데이터를 활용하여 투표 성향 예측
- 낙태 찬반 의견 예측: 미국(ANES 설문)과 칠레(CEP 설문)에서 응답자의 사회·인구학적 특성을 기반으로 낙태에 대한 입장 예측
- 칠레 헌법 국민투표 예측: 2022년 칠레 국민투표에서 개헌 찬반 입장 예측
각 실험에서는 다양한 LLM(GPT-3.5, GPT-4, Llama-13B, Mistral)을 사용하여 예측 정확도를 비교했으며, 추가로 칠레 데이터를 반영한 모델을 별도로 학습(fine-tuning)하여 그 효과도 검토했다.
2) 데이터셋
- 미국 데이터: American National Election Studies (ANES) 2020년 타임 시리즈 데이터를 활용(8,000명 이상 응답)
- 칠레 데이터: Centro de Estudios Públicos (CEP) 2022년, 2023년 설문 조사 데이터 활용
두 데이터셋은 성별, 연령, 지역, 경제적 지위, 교육 수준, 정치적 성향 등 주요 인구학적 변수를 포함하고 있어 비교 분석이 용이했다.
3) 모델 및 프롬프트 설계
LLM 예측 성능을 평가하기 위해 프롬프트(질문 입력 방식)를 조정하며 실험을 진행했다. 연구진은 Chain-of-Thought (CoT) 기법을 적용하여 모델이 단계별로 논리를 전개하며 예측하도록 유도했다. 또한, 영어와 스페인어 프롬프트를 비교하며 언어적 차이가 성능에 미치는 영향을 분석했다.
연구 결과: LLM은 미국에서 더 정확했지만, 칠레에서는 편향성 드러나
1) 미국 vs. 칠레 비교
분석 결과, 대부분의 LLM이 미국 데이터에서 더 높은 정확도를 보였으며, 칠레 데이터에서는 예측력이 떨어졌다. 특히, 미국의 대선 투표 예측에서 평균 85% 이상의 정확도를 기록한 반면, 칠레 대선 예측에서는 60~70% 수준에 그쳤다. 이러한 결과는 LLM의 사전 학습 데이터가 미국 중심으로 구성되어 있기 때문으로 보인다.
낙태 찬반 예측에서도 미국 데이터에서는 정치적 성향과 인구학적 변수를 기반으로 높은 정확도를 보였으나, 칠레에서는 종교적 배경이나 교육 수준에 따른 예측 오차가 크게 나타났다. 이는 미국과 칠레의 정치·사회적 맥락이 다르기 때문에 LLM이 동일한 방식으로 예측하는 데 한계가 있음을 시사한다.
2) 모델별 성능 비교
- Llama-13B: 가장 안정적인 성능을 보여주었으며, 칠레 데이터에서도 상대적으로 높은 정확도를 기록
- GPT-4: 미국 데이터에서는 뛰어난 성능을 보였지만, 칠레 데이터에서는 편향성이 뚜렷하게 드러남
- GPT-3.5: 전반적으로 정확도 변동이 컸으며, 특정 질문에서는 예측력이 떨어짐
- Mistral: 칠레 데이터에서 가장 낮은 성능을 기록하며, 비(非)미국 데이터에 대한 일반화 능력이 부족한 것으로 나타남
3) 인구학적 편향성 분석
연구진은 LLM이 특정 사회·인구학적 그룹에서 편향적으로 작동하는지를 분석했다. 그 결과:
- 칠레에서는 여성, 교육 수준이 낮은 집단, 고령층에서 예측 정확도가 낮았다. 특히, 낮은 교육 수준과 좌파 성향을 동시에 가진 그룹에서는 예측력이 크게 감소했다.
- 미국에서는 소득이 낮은 계층에서 예측 정확도가 떨어졌으며, 인종 간 편향성이 일부 확인되었다. 특히, 흑인 여성의 예측 정확도가 유의미하게 낮았다.
이를 통해 LLM이 특정 계층을 더 정확하게 반영하거나, 반대로 과소 대표하는 경향이 있음을 확인할 수 있었다.
논의 및 결론: 공정성 확보를 위한 과제
1) 데이터 편향 문제 해결 필요
이번 연구는 LLM이 미국 중심적 데이터를 기반으로 학습하면서 칠레와 같은 비(非)미국 맥락에서는 예측력이 떨어진다는 점을 확인했다. 이를 해결하기 위해서는 보다 다양한 지역과 문화적 배경을 반영한 데이터셋이 필요하다.
2) 모델 조정 및 미세 조정(fine-tuning) 필요성
연구진은 칠레 데이터를 활용해 LLM을 미세 조정(fine-tuning)한 모델을 실험했지만, 기대만큼 성능 향상이 이루어지지는 않았다. 오히려 특정 방향으로 편향이 심화될 가능성이 나타났으며, 이를 방지하기 위해 보다 정교한 조정 방법(예: Direct Preference Optimization)이 요구된다.
3) AI의 사회적 책임 및 윤리적 고려
LLM이 점점 더 사회과학 연구 및 정책 결정에 활용됨에 따라, 공정성과 대표성을 확보하는 것이 중요해지고 있다. 본 연구는 AI 모델이 특정 사회 집단을 과소 또는 과대 대표할 가능성이 있으며, 이를 해결하기 위한 공정성 메트릭 적용과 지속적인 검토가 필요하다는 점을 강조한다.
마무리
LLM을 활용한 설문 조사 예측은 혁신적인 가능성을 제공하지만, 그 한계도 분명하다. 특히, 미국 중심의 학습 데이터 편향은 다양한 사회·문화적 배경을 반영하는 데 한계를 보이며, 향후 연구에서는 더 공정하고 균형 잡힌 모델을 개발하는 방향으로 나아가야 한다. AI가 공정한 사회적 도구로 자리 잡기 위해서는 데이터의 다양성과 모델 조정 방법에 대한 지속적인 연구가 필수적이다.
You said:
ChatGPT said:
대형 언어 모델(LLM) 기반 설문 조사 공정성 연구: 미국과 칠레 사례 비교
대형 언어 모델(LLM)은 텍스트 생성뿐만 아니라 인간의 사회·정치적 태도를 반영하는 데이터 분석에도 활용되고 있다. 특히, 전통적인 설문 조사 대신 LLM이 응답을 생성하여 공공 여론을 분석하는 방식이 주목받고 있다. 그러나 이러한 모델이 다양한 사회·문화적 맥락에서 공정하게 작동하는지에 대한 검증은 아직 부족하다. 이번 연구는 LLM이 미국과 칠레의 공공 설문 데이터를 얼마나 정확하게 예측하며, 특정 인구집단에서 공정성을 유지하는지를 분석하는 데 초점을 맞춘다.
연구 목적과 문제의식
최근 연구들은 LLM이 특정한 사회·정치적 패턴을 재현하는 데 탁월한 성능을 보인다고 보고한다. 특히, GPT 계열 모델들은 인간과 유사한 응답을 생성하며, 선거 예측, 정책 지지율 분석, 공공 여론 조사를 대체하는 데 활용될 가능성이 제기되고 있다. 그러나 이러한 모델이 공정성과 대표성을 유지하며, 다양한 인구집단과 문화권에서 일관된 성능을 보이는지는 여전히 논란의 여지가 있다.
기존 연구들은 대부분 미국 중심의 데이터를 활용하여 LLM을 평가해 왔다. 따라서 미국 외 국가에서 LLM이 공정하고 일관되게 작동하는지 검증하는 것이 필요하다. 본 연구는 미국과 칠레의 공공 설문 데이터를 활용하여 LLM의 예측 성능과 공정성을 평가하며, 그 과정에서 국가 간 편향성 및 인구집단별 차이를 분석한다.
연구 방법론
본 연구에서는 LLM이 다양한 사회·정치적 태도를 얼마나 정확하게 예측할 수 있는지를 검토하기 위해, 세 가지 예측 실험을 수행하였다. 이를 위해 미국과 칠레의 실제 설문 조사 데이터를 활용하여, LLM이 특정 질문에 대한 응답을 올바르게 예측하는지를 분석하였다.
1) 예측 실험 설계
LLM이 설문 조사 데이터를 기반으로 응답을 생성하고 예측할 수 있는지 검증하기 위해 세 가지 유형의 예측 실험을 설계하였다.
- 대선 투표 예측:
- 미국: 2020년 대통령 선거(바이든 vs. 트럼프)에서 유권자의 투표 성향 예측
- 칠레: 2021년 대통령 결선 투표(보리치 vs. 카스트)에서 유권자의 투표 성향 예측
- 낙태 찬반 의견 예측:
- 미국과 칠레의 낙태 관련 설문 데이터를 활용하여 응답자의 낙태 찬반 의견 예측
- 칠레 헌법 국민투표 예측:
- 2022년 칠레 개헌 국민투표에서 유권자의 찬반 입장 예측
각 실험에서는 LLM이 응답자의 사회·인구학적 특성(성별, 연령, 교육 수준, 경제적 지위, 정치적 성향 등)을 바탕으로 해당 질문에 대한 응답을 얼마나 정확하게 예측할 수 있는지를 평가하였다.
2) 데이터셋
본 연구는 미국과 칠레의 공공 설문 조사 데이터를 활용하여, LLM이 현실 세계 데이터를 기반으로 응답을 예측할 수 있는지 검증하였다.
- 미국 데이터: American National Election Studies (ANES) 2020 타임 시리즈 데이터
- 미국 유권자 8,000명 이상의 설문 응답 포함
- 선거 행동, 정치적 태도, 인구학적 특성(성별, 연령, 지역, 경제적 지위, 교육 수준, 정당 성향 등) 포함
- 칠레 데이터: Centro de Estudios Públicos (CEP) 2022~2023년 설문 조사 데이터
- 칠레 유권자의 사회·정치적 태도를 조사한 데이터
- 주요 변수: 정치적 성향, 교육 수준, 종교적 배경, 경제적 지위, 지역 등
이러한 데이터셋은 공통된 변수(예: 정치적 성향, 교육 수준, 경제적 지위 등)를 포함하고 있어 국가 간 비교가 가능하도록 구성되었다.
3) LLM 모델 및 실험 구성
본 연구에서는 여러 가지 LLM을 활용하여 예측 실험을 수행하고, 모델 간 성능 차이를 비교하였다.
(1) 비교 대상 LLM
- GPT-4 (GPT-4-turbo)
- GPT-3.5 (GPT-3.5-turbo)
- Llama-13B
- Mistral (v0.2)
추가적으로, **칠레 데이터를 활용하여 모델을 미세 조정(fine-tuning)한 모델(F2 Llama)**을 학습하여 국가별 성능 차이를 비교하였다.
(2) 프롬프트 설계
모델의 예측력을 최대화하기 위해 다양한 프롬프트(prompt) 기법을 실험하였다.
- Chain-of-Thought (CoT) 프롬프트: 모델이 응답을 생성하는 과정에서 단계별 추론을 수행하도록 유도
- 영어 vs. 스페인어 프롬프트 비교: 모델이 다국어 데이터를 어떻게 처리하는지 검토
- Few-shot learning: 설문 응답 예시를 포함하여 학습을 유도
- 프롬프트 구조 변경 실험: 질문 구조 및 응답 형태를 변경하여 모델 성능 비교
4) 평가 방법 및 분석 기법
LLM이 설문 데이터를 얼마나 정확하게 예측하는지를 평가하기 위해 다양한 성능 지표를 활용하였다.
(1) 예측 정확도(Accuracy)
- 개별 응답자가 실제로 한 응답과 모델이 예측한 응답이 일치하는 비율을 측정
- 예측 성공률이 높을수록 모델이 실제 인간 응답을 정확히 반영하는 것으로 해석됨
(2) Jensen-Shannon Similarity (JSS)
- 모델이 생성한 응답 분포가 실제 데이터의 분포와 얼마나 유사한지를 평가
- 개별 응답 예측보다 집단 수준의 패턴을 평가하는 데 유용
(3) 공정성(Fairness) 분석
- Overall Accuracy Equality(OAE): 모델이 모든 인구 집단에서 동일한 예측 정확도를 보이는지 측정
- 로지스틱 회귀(Logistic Regression): 성별, 연령, 교육 수준, 정치적 성향 등이 모델의 예측 정확도에 미치는 영향을 분석
- 교차 집단 분석(Intersectional Analysis): 특정 집단(예: 교육 수준이 낮은 고령 여성)이 모델 예측에서 불리하게 작용하는지 검토
(4) 비교 기준: 랜덤 포레스트(Random Forest)
- 동일한 데이터셋을 사용하여 랜덤 포레스트 모델을 학습하고, LLM의 성능과 비교
- LLM이 전통적인 머신러닝 모델보다 우수한지 확인하는 기준점 역할
연구의 기대 효과
본 연구는 다음과 같은 기여점을 가진다.
- LLM의 공정성 검증: 미국과 칠레를 비교하여 LLM이 특정 문화적·사회적 맥락에서 편향성을 가질 수 있음을 규명
- 사회과학 연구에서 LLM의 활용 가능성 평가: 전통적인 설문 조사 방법과 비교하여 LLM의 예측력이 얼마나 유효한지를 분석
- Fine-tuning의 효과 검증: 국가별로 모델을 미세 조정했을 때 성능이 향상되는지 검토
- AI 윤리 및 공정성 논의 기여: 특정 집단에서의 편향성 문제를 규명하고, 이를 완화하기 위한 방법론적 접근 제시
향후 연구에서는 보다 다양한 국가 데이터를 포함하고, 정치적 이슈별로 모델의 편향성을 분석하는 방향으로 연구를 확장할 수 있다.