Article Review

[LLM 정치학] Mens and Gallego (2025) 질문 및 평균화를 통한 LLM로 정치 텍스트 위치 지정하는 법

Dr. Julia 2025. 1. 29. 09:40

AI가 정치 텍스트를 분석해서 "좌우 어디쯤인지"를 말해줄 수 있다면 어떨까요? 정말 흥미롭죠! 이번에 소개할 논문, "Positioning Political Texts with Large Language Models by Asking and Averaging" (2025)는 최신 대형 언어 모델(LLMs)을 활용해 트윗, 정당 강령, 다국어 연설 등의 정치 텍스트를 이념적 스펙트럼에서 위치시키는 방법을 제안합니다.

이 논문은 복잡한 기술을 간단히 설명하면서도, 매우 정교한 방법론으로 데이터를 처리합니다. 어떻게 LLM을 사용했는지, 그리고 이 방법이 기존 방식과 무엇이 다른지 구체적으로 알아볼게요!


이 논문의 핵심 질문: AI로 정치적 위치를 어떻게 측정할 수 있을까?

정치학 연구에서 흔히 사용하는 분석 방법 중 하나는 정치 텍스트의 이념적 위치(예: 좌-우, 진보-보수)를 평가하는 것입니다. 하지만 이를 위해 전문가 코더를 고용하거나 복잡한 기계 학습 모델을 훈련시키는 데 시간과 비용이 많이 들었죠.

이 논문은 훨씬 간단하고 직관적인 방법을 제안합니다: LLM에게 직접 물어보자!

  • 트윗, 정당 강령, 연설 등의 텍스트를 문장 단위로 쪼개고,
  • 각 문장이 좌우 스펙트럼에서 어디에 위치하는지 질문한 뒤,
  • 그 답을 평균내어 최종 위치를 결정합니다.

이 방법론은 기존의 기계 학습 모델보다 간편할 뿐만 아니라, 비용 효율적이고 다국어 텍스트 분석까지 가능하다는 장점이 있습니다.

 

LLM 사용 방법: 구체적으로 어떻게 했을까?

이 논문에서 제안한 방법은 대형 언어 모델(LLM)을 활용하여 정치 텍스트의 이념적 위치를 평가하는 혁신적인 접근법입니다. 이 과정은 프롬프트 설계, 모델 설정, 데이터 입력 및 처리, 최종 결과 도출의 단계로 나누어집니다. 여기서는 실제 실험에서 LLM을 어떻게 구체적으로 사용했는지를 자세히 살펴보겠습니다.


1. 프롬프트 설계: 모델에게 무엇을, 어떻게 물어볼까?

프롬프트는 LLM에게 정확한 답변을 얻기 위해 매우 중요한 역할을 합니다. 이 논문에서는 정치적 텍스트를 이념적 스펙트럼에서 위치시키기 위해 다음과 같은 방식으로 프롬프트를 설계했습니다.

  • 질문의 구조:이 프롬프트는 모델에게:
    • 이념적 위치(0~100)를 수치화하도록 요청하고,
    • 정치적 의미가 없는 텍스트는 'NA'로 처리하도록 명시했습니다.
    • JSON 형식의 응답을 요구하여 데이터 정리를 용이하게 했습니다.
  • "다음에 제시된 텍스트는 좌(0)에서 우(100) 스펙트럼 중 어디에 위치합니까? 정치적 내용이 없으면 'NA'로 답하세요. 답변은 JSON 형식으로, 'Score'라는 키와 숫자 값으로만 작성해주세요."
  • 응용 예시:
    예를 들어, 한 트윗의 텍스트를 입력한다고 가정하면 다음과 같은 방식으로 질문합니다:
  •  
    "다음은 미국 의회의 한 의원이 작성한 트윗입니다. 이 텍스트가 좌(0)-우(100) 스펙트럼에서 어디에 위치하는지 평가해주세요. ≪ Text of the tweet ≫"
  • 정확성을 높이는 설정:
    • 간결함 요구: LLM이 불필요한 설명을 덧붙이지 않도록 요청.
    • 정확성 강조: 정치적 내용이 분명하지 않은 경우에는 "NA"로 처리하도록 명시.

2. 모델 설정: 안정성과 효율성을 위한 파라미터 조정

LLM이 일관된 결과를 도출하도록 여러 설정이 이루어졌습니다.

  • Temperature 설정:
    • Temperature는 모델의 응답 다양성을 조정하는 변수입니다.
    • Temperature = 0으로 설정해 가장 가능성 높은 응답을 반환하도록 설정했습니다. 이는:
      • 결과의 일관성을 보장하고,
      • 랜덤성을 제거해 실험 재현성을 높이는 데 도움을 줍니다.
  • 응답 길이 제한:
    • 최대 20 토큰으로 응답 길이를 제한했습니다.
    • 이는 LLM의 응답 속도를 높이고, 분석 비용을 절감하기 위해 설정되었습니다.
    • 응답 예시:
       
      {"Score": 75}
  • JSON 형식 응답:
    • JSON 형식으로 응답을 요구함으로써, 결과 데이터를 정리하고 분석하기 쉽게 만들었습니다.

실제 실험: 이렇게 진행됐습니다

이 논문에서는 LLM(대형 언어 모델)을 활용해 정치 텍스트를 이념적 스펙트럼에서 위치시키는 네 가지 주요 실험을 진행했습니다. 각 실험은 데이터의 종류와 분석 목표에 따라 세밀하게 설계되었으며, 이를 통해 LLM의 성능을 기존 방법론(전문가 코딩, 군중 코딩, 기계 학습 모델)과 비교했습니다. 이제 각 실험이 어떻게 진행되었는지 구체적으로 살펴보겠습니다.


1. 미국 의회 트윗 분석

실험 목표:
미국 의회의 상·하원 의원들이 작성한 트윗을 분석해, 각 트윗이 좌-우 스펙트럼에서 어디에 위치하는지 평가합니다. 이는 짧고 구체적인 텍스트에서도 LLM이 이념적 차이를 포착할 수 있는지 검증하기 위한 실험입니다.

데이터:

  • 900개의 트윗: 미국 상·하원 의원들이 작성한 트윗 데이터.
  • 추가 조건: GPT-4의 학습 데이터에 포함되지 않은 최신 트윗(2023년 11월 이후 작성)을 사용해 모델의 성능을 공정하게 평가.

실험 방법:

  1. 트윗을 한 줄씩 LLM에 입력:
    • 각 트윗을 독립적으로 LLM에 제공하며, 아래와 같은 프롬프트를 사용했습니다.
       
      "다음은 미국 의회의 한 의원이 작성한 트윗입니다. 이 트윗이 좌(0)에서 우(100) 스펙트럼 중 어디에 위치하는지 평가해주세요. 정치적 내용이 없으면 'NA'로 표시해주세요." ≪ Text of the tweet ≫
  2. LLM의 점수 반환:
    • LLM은 각 트윗에 대해 0(극좌)에서 100(극우) 사이의 점수를 반환하거나, 정치적이지 않은 경우 "NA"로 처리.
  3. 비교 데이터:
    • 군중 코딩 데이터: 597명의 Prolific 참가자가 동일한 트윗을 평가한 점수(좌~우 스펙트럼).
    • LLM의 점수와 군중 코더 점수 간의 상관관계를 계산해 성능을 평가.

결과:

  • LLM이 도출한 점수와 군중 코딩 점수의 상관관계는 **로 매우 높았습니다.
  • 당파성뿐만 아니라, 같은 정당 내 의원 간의 미묘한 차이까지 포착.

2. 미국 상원의원 이념적 위치 평가

실험 목표:
상원의원 개인의 이념적 위치를 평가하기 위해, 의원들이 작성한 트윗 데이터를 기반으로 이념적 스펙트럼에서의 위치를 추정합니다.

데이터:

  • 117대 미국 상원의원: 총 100명 중 98명이 분석 대상(2명은 트윗 수 부족으로 제외).
  • 트윗 데이터: 각 상원의원이 작성한 100개의 트윗을 랜덤으로 샘플링.

실험 방법:

  1. 트윗 기반 이념 점수 계산:
    • 각 의원이 작성한 100개의 트윗을 개별적으로 LLM에 입력해 점수를 도출.
    • 모든 트윗 점수를 평균내어 의원의 이념적 위치를 평가.
  2. 비교 데이터:
    • DW-NOMINATE 점수: 상원의원들의 투표 기록 기반 이념 점수.
    • 캠페인 기부 점수 (CF 점수): 의원들의 정치 기부 데이터를 기반으로 계산된 점수.

결과:

  • LLM으로 도출한 이념 점수는 DW-NOMINATE 점수와 매우 높은 상관관계를 보였습니다.
  • 특히, 정당 내부의 이념적 차이를 포착하는 데 기존 기계 학습 모델보다 우수한 성능을 보였습니다.
  • 캠페인 기부 점수와도 높은 상관관계를 보여, 다양한 데이터와 일관된 결과를 나타냈습니다.

3. 영국 정당 강령 분석

실험 목표:
영국 주요 정당 강령의 문장 단위 분석을 통해, 정당들이 경제와 사회 정책 축에서 어디에 위치하는지를 평가합니다.

데이터:

  • 강령 데이터: 영국 주요 정당의 강령 18개.
  • 비교 데이터:
    • 전문가 코딩 점수: 정치학 전문가들이 강령을 분석해 제공한 이념 점수.
    • 군중 코딩 점수: 군중 코더가 문장 단위로 평가한 점수를 평균한 데이터.

실험 방법:

  1. 문장 단위로 강령 분석:
    • 각 정당 강령을 문장 단위로 쪼개고, 문장별로 LLM에 입력.
    • 프롬프트는 다음과 같이 구성:
       
      "다음 문장은 좌(0)에서 우(100) 스펙트럼 중 어디에 위치합니까?" ≪ Text of the sentence ≫
    • LLM은 각 문장에 대해 점수를 반환.
  2. 평균 계산:
    • 문장별로 반환된 점수를 평균내어 강령 전체의 이념적 위치를 계산.
  3. 비교:
    • LLM 결과와 전문가 및 군중 코딩 점수 간의 상관관계를 비교.

결과:

  • LLM 기반 결과와 전문가 코딩 점수의 상관관계는 r>0.90로 매우 높았습니다.
  • 군중 코딩 점수와도 유사한 수준의 일관성을 보였습니다.
  • LLM은 정책 축의 설명 없이도 높은 성능을 보였으며, 설명을 추가해도 성능이 개선되지 않아 모델의 내재적 이해 능력을 입증했습니다.

4. 다언어 EU 정책 연설 분석

실험 목표:
유럽 의회의 연설문을 분석해 "보조금 반대-찬성" 축에서 각 연설이 어디에 위치하는지를 평가합니다.

데이터:

  • 36개의 연설문: 유럽 의회에서 10개 언어로 발표된 연설.
  • 비교 데이터: 군중 코더가 6개 언어(영어, 독일어, 그리스어, 이탈리아어, 폴란드어, 스페인어)로 번역된 연설을 평가한 점수의 평균.

실험 방법:

  1. 다국어 텍스트 처리:
    • 각 연설문을 문장 단위로 쪼개고, 원어 그대로 LLM에 입력.
    • 프롬프트에 배경 설명 추가:
       
      "이 문장은 유럽 의회 보조금 정책 논쟁과 관련이 있습니다. 이 문장이 보조금 반대(0)에서 찬성(100) 축 중 어디에 위치합니까?" ≪ Text of the sentence ≫
  2. 평균 계산:
    • 문장별 점수를 평균내어 각 연설문 전체의 위치를 도출.
  3. 비교:
    • LLM 결과와 군중 코딩 점수 간의 상관관계를 계산.

결과:

  • GPT-4o는 다국어 환경에서도 높은 정확성을 보였으며, 번역 없이도 일관된 결과를 도출했습니다.
  • 특히, 원문 그대로 입력했음에도 군중 코더 평균 점수와 높은 상관관계(r)를 나타냈습니다.

종합 결론: 실험 결과의 의미

이 네 가지 실험을 통해 LLM은 짧은 트윗부터 복잡한 다국어 연설문까지 다양한 텍스트 유형에서 높은 정확성과 유연성을 보여줬습니다. 기존의 인간 코딩, 군중 코딩, 기계 학습 모델에 비해 다음과 같은 장점이 확인되었습니다:

  • 효율성: 비용과 시간을 크게 절감.
  • 정확성: 인간 코딩과 유사한 수준의 신뢰도 확보.
  • 다양성: 다국어 데이터와 긴 텍스트에서도 높은 성능 발휘.

이 결과는 LLM이 정치 텍스트 분석에서 유용한 도구로 자리잡을 가능성을 보여줍니다.

왜 LLM을 활용한 방법이 더 나을까?

  1. 비용 효율성:
    • 예를 들어, 900개의 트윗 분석 비용은 GPT-4 API 기준 $1.50에 불과합니다.
    • 반면, 군중 코더를 고용하면 £1,626 이상이 소요됩니다.
  2. 속도와 간편성:
    • 복잡한 모델을 훈련시키지 않아도, LLM의 기존 기능을 바로 활용할 수 있습니다.
  3. 다언어 지원:
    • 다양한 언어의 텍스트를 별도의 번역 없이도 분석할 수 있습니다.
  4. 높은 정확성:
    • 기존 인간 코딩이나 기계 학습 모델과 비슷하거나 더 나은 결과를 제공합니다.

이 방법의 한계는?

  1. 모델 편향:
    • LLM은 훈련 데이터의 편향을 반영할 수 있습니다. 예를 들어 특정 언어, 국가, 주제에서 편향된 결과가 나올 가능성이 있습니다.
  2. 텍스트 의존성:
    • 결과는 입력된 텍스트에 전적으로 의존합니다. 텍스트가 부족하거나 편향되어 있다면 결과도 왜곡될 수 있습니다.
  3. 다언어 성능 차이:
    • 언어별 성능 편차가 발생할 수 있으며, 이는 다국적 연구에서 오차 요인이 될 수 있습니다.

결론: 이 논문이 주는 교훈과 가능성

Le Mens와 Gallego의 연구는 AI가 정치 텍스트 분석에 혁신적인 도구가 될 수 있음을 보여줍니다. 복잡한 텍스트 분석 작업을 효율적으로 처리할 수 있고, 기존 방법보다 더 간편하며 비용까지 절감됩니다.

앞으로 이 방법은 다국적 비교 연구, 정책 분석, 정당 강령 해석 등 다양한 정치학 분야에서 활용될 수 있을 것입니다. 하지만 모델의 한계와 편향성을 이해하고, 모든 데이터에 대해 신중히 검증하는 과정이 여전히 필수적입니다.