12개의 머신러닝 모델, 경제 이념을 얼마나 정확하게 분석할까?
요즘 정치 텍스트를 자동으로 분석해서 이념을 측정하는 연구가 활발하게 이루어지고 있습니다. 특히 머신러닝(ML)을 활용한 이념 측정 방법이 주목받고 있는데, 과연 어떤 모델이 가장 효과적일까요?
University College Dublin의 Jihed Ncib가 발표한 논문 Comparative Insights from 12 Machine Learning Models in Extracting Economic Ideology from Political Text에서는 총 12개의 머신러닝 모델을 비교하여 정치 텍스트에서 경제 이념을 얼마나 정확하게 감지하는지를 평가했습니다. 연구에서는 영국 정당의 공약집(manifesto) 데이터를 사용하여 경제적 좌우 스펙트럼을 분석했고, 이를 전문가 코딩 데이터와 크라우드 소싱 코딩 데이터와 비교했습니다.
논문의 결론은?
👉 GPT-4o와 Gemini 1.5 Flash 같은 생성형 AI 모델이 가장 우수한 성능을 보였다!
👉 Fine-tuned 모델(예: POLITICS 모델)도 꽤 좋은 성과를 보였지만, 사전 훈련 데이터에 의존하는 한계가 있음.
👉 Zero-shot 모델(사전 훈련 없이 바로 적용되는 모델)은 경제 이념을 탐지하는 데 실패하는 경우가 많았음.
이 논문이 어떤 연구를 수행했는지, 어떤 방법론을 사용했고 어떤 결과가 나왔는지를 하나씩 살펴보겠습니다.
💡 연구 질문: 정치 텍스트에서 경제 이념을 측정하는 최적의 머신러닝 모델은 무엇인가?
정치학에서 경제 이념은 정책 결정, 유권자 행동, 정당의 정체성을 이해하는 데 중요한 개념입니다. 기본적으로 경제 이념은 좌파(정부 개입, 복지, 재분배)와 우파(자유시장, 낮은 세금, 규제 완화)로 구분됩니다. 하지만 문제는, 이런 경제 이념을 어떻게 정확하게 측정할 것인가입니다.
기존에는 사람이 직접 텍스트를 읽고 코드북을 기준으로 좌우를 판단하는 방법(예: 전문가 코딩)이 가장 일반적이었습니다. 하지만 이 방법은 시간도 많이 걸리고 주관적인 오류가 발생할 가능성이 높습니다. 이를 해결하기 위해 등장한 것이 바로 머신러닝을 활용한 자동 분석 방법입니다.
✨ 연구 목표
- 머신러닝 모델이 경제 이념을 얼마나 정확하게 측정할 수 있는지 평가
- 생성형 AI (예: GPT-4o, Gemini 1.5 Flash), Fine-tuned 모델, Zero-shot 모델을 비교
- 사람이 직접 코딩한 데이터(전문가 코딩, 크라우드 코딩)와 비교하여 머신러닝 모델의 성능을 검증
- 각 모델이 갖는 장점과 단점을 분석하고, 가장 적합한 방법론을 제안
📊 데이터 & 방법론: 영국 정당 공약집을 머신러닝으로 분석하다!
이 연구는 1987년~2010년 사이 6번의 영국 총선에서 주요 정당(보수당, 노동당, 자유민주당)이 발표한 공약집(manifesto) 데이터를 활용했습니다.
- 데이터 규모: 총 13,304개의 문장
- 전문가 및 크라우드 소싱 코딩을 활용하여 경제 이념(좌파, 우파, 중립)으로 레이블링
- 각 머신러닝 모델이 예측한 결과를 전문가 및 크라우드 코딩 결과와 비교
⚙️ 3가지 유형의 머신러닝 모델 비교
1️⃣ 생성형 AI 모델 (Generative AI Models)
- GPT-4o (OpenAI)
- Gemini 1.5 Flash (Google DeepMind)
- Gemini 1.5 Flash (Few-shot prompting 포함)
📌 결과: 가장 높은 정확도를 기록하며 최상위 모델로 평가됨!
2️⃣ Fine-tuned 모델 (사전 훈련된 후 특정 분야에서 미세 조정된 모델)
- POLITICS (RoBERTa 기반 정치 텍스트 분석 모델)
- DistilBERT (경량화된 BERT 모델, Fine-tuning 포함)
- RoBERTa Base (BERT 모델의 최적화 버전)
📌 결과: 비교적 높은 성능을 보였지만, 사전 훈련된 데이터에 의존하는 한계가 있음
3️⃣ Zero-shot 모델 (사전 훈련 없이 바로 적용되는 모델)
- DistilBART, DeBERTa, RuBERT, RoBERTa Large XNLI 등
📌 결과: 경제 이념을 감지하는 데 실패하는 경우가 많았음 (특히 중립적인 텍스트를 잘못 분류하는 경향)
📌 모델의 성능을 어떻게 비교했을까?
- 문장 단위(sentence-level) 비교: 각 모델이 개별 문장의 경제 이념을 얼마나 정확하게 예측하는지 평가
- 공약집 전체(aggregate-level) 비교: 각 정당의 전체 공약집에서 예측된 경제 이념 점수가 실제 전문가/크라우드 코딩과 얼마나 일치하는지 분석
- F1 Score, Accuracy, Correlation 분석: 모델이 얼마나 정확하게 경제 이념을 분류했는지 평가📊 데이터 & 방법론: 영국 정당 공약집을 머신러닝으로 분석하다!🗂 데이터 세부사항: 어떤 자료를 분석했을까?
- 데이터 출처: Benoit et al. (2016)의 복제 데이터셋
- 분석 대상: 1987년~2010년 영국 총선에서 발표된 13,304개의 공약집 문장
- 참여 정당:
- 보수당(Conservative Party)
- 노동당(Labour Party)
- 자유민주당(Liberal Democrats)
- 텍스트 단위: 문장 수준에서 개별적으로 분석 (sentence-level analysis)
- 이념적 레이블: 경제 이념을 기준으로 좌파(left-wing), 중립(neutral), 우파(right-wing)으로 레이블링
🔍 데이터 전처리 & 정리 과정
1️⃣ 문장 단위 토큰화(Sentence Tokenization)- 공약집 전체를 문장 단위로 분리
- NLTK, spaCy 등의 자연어처리 라이브러리를 사용하여 문장을 분할
- 정당과 연도별 문장 개수를 유지하며 문장별 고유 ID 부여
- 소문자 변환 (lowercasing)
- 구두점 및 특수 문자 제거 (punctuation removal)
- 불필요한 공백 제거
- 표제어 추출(Lemmatization) 또는 어간 추출(Stemming)
- 경제 이념 분석과 무관한 불용어(stopwords) 제거
- nltk.corpus.stopwords 활용하여 영어 불용어 리스트 적용
- 예: "the", "is", "and", "of" 등 불필요한 단어 제거
- 경제 정책과 관련 없는 문장 제거 (예: 외교, 국방, 환경 등 비경제적 주제)
- LDA(Latent Dirichlet Allocation) 토픽 모델링을 사용하여 경제 관련 문장을 필터링
🧠 머신러닝 모델 적용 방법: 어떻게 경제 이념을 예측했을까?📌 모델별 학습 및 예측 과정- OpenAI API 및 Google AI API를 사용하여 공약집 문장을 입력(prompt)으로 제공
- 프롬프트 예시 (GPT-4o의 경우):
"You will be provided with a text from a party manifesto. Where does this text stand on the left to right wing scale, in terms of economic policy? Provide your response as a label of ideology: right-wing, left-wing, or neutral."
- 모델이 출력한 경제 이념 레이블을 전문가 코딩과 비교하여 성능 평가
- RoBERTa 및 DistilBERT 모델을 사전 훈련된 후(fine-tuning) 경제 정책 문장 분석을 위해 추가 훈련
- 훈련 데이터: 1000개의 공약집 문장을 사용하여 supervised learning 진행
- 사용된 라이브러리: Hugging Face Transformers, PyTorch
- 훈련 후, 미사용 데이터(테스트셋)에서 경제 이념을 예측하고 정답 데이터와 비교
- 미리 훈련된 모델을 활용해 별도의 fine-tuning 없이 바로 공약집 문장에 적용
- 모델 입력 프롬프트(Zero-shot 예제):
"Right-wing beliefs emphasize free-market capitalism, low taxes, deregulation. Left-wing beliefs emphasize government intervention, redistribution, and welfare. The economic ideology of this statement is: { }."
- 결과를 전문가 코딩과 비교하여 성능 평가
📊 성능 평가: 모델이 얼마나 정확했을까?✅ 문장 수준 평가(Sentence-Level Metrics)- F1 Score (조화평균): 좌파/우파/중립 문장을 얼마나 정확하게 분류했는지 평가
- Accuracy (정확도): 전체 예측 중 올바르게 맞춘 비율
- Recall & Precision: 특정 범주의 문장을 얼마나 잘 찾아냈는지 측정
- 각 정당(보수당, 노동당, 자유민주당)의 공약집에서 평균 경제 이념 점수를 산출
- 모델의 예측값과 전문가/크라우드 코딩의 평균 점수를 상관계수(correlation coefficient)로 비교
- Zero-shot 모델이 입력 문장(prompt)의 차이에 따라 예측이 얼마나 달라지는지 실험
- "implicit(암묵적인) 이념 신호까지 포함할 것인지" 등의 프롬프트 변형 실험
💡 데이터 & 방법론 요약- 1987~2010년 영국 정당 공약집(13,304개 문장)에서 경제 이념 분석
- 문장 단위로 데이터 정리 및 경제 관련 문장 필터링 진행
- 생성형 AI, Fine-tuned 모델, Zero-shot 모델 등 12개 머신러닝 모델 비교
- 전문가 코딩/크라우드 코딩과 비교하여 모델 성능 평가
- 문장 수준(F1 Score, Accuracy) & 전체 공약집 상관계수 분석
- Zero-shot 모델의 프롬프트 실험 진행
🔎 연구자가 활용할 수 있는 인사이트- 정치 텍스트 분석을 위해 데이터 전처리 과정이 매우 중요 → 문장 단위 토큰화, 경제 관련 문장 필터링 필수
- Fine-tuned 모델은 특정 문서 유형에 최적화되지만, 새로운 문서에서는 성능 저하 가능
- 생성형 AI(GPT-4o, Gemini 1.5 Flash)가 가장 정확하지만, 비용과 접근성 문제 고려 필요
- Zero-shot 모델만으로는 경제 이념 분석이 어렵고, 프롬프트 최적화 필요
- 모델의 성능을 측정하기 위해 다양한 지표를 활용했다.
- 1️⃣ 생성형 AI 모델(GPT-4o, Gemini 1.5 Flash)
- 연구자는 12개의 머신러닝 모델을 비교하여 경제 이념을 분석했다. 이를 위해 각 모델이 공약집 문장을 좌파(left-wing), 우파(right-wing), 중립(neutral) 중 하나로 분류하도록 훈련했다.
- 머신러닝 모델을 적용하기 전에, 공약집 데이터를 효과적으로 분석할 수 있도록 전처리 과정이 진행되었다.
- 이 연구는 1987년부터 2010년까지 영국 총선에서 주요 정당(보수당, 노동당, 자유민주당)이 발표한 공약집(manifesto) 데이터를 활용하여 경제 이념을 측정했다. 공약집은 선거 기간 동안 정당들이 공식적으로 발표하는 정책 문서로, 정당의 경제 정책과 이념적 방향을 분석하기에 최적의 자료다.
🔍 연구 결과: 생성형 AI 모델이 가장 정확했다!
1️⃣ 생성형 AI 모델 (GPT-4o & Gemini) → 최고 성능
- GPT-4o의 평균 상관계수(correlation coefficient) = 0.97 (전문가 코딩 기준)
- Gemini 1.5 Flash (Few-shot) = 0.91
- Gemini 1.5 Flash (Standard) = 0.90
- F1 Score(정확도 지표)도 가장 높게 기록됨
📌 결론:
→ 생성형 AI 모델(GPT-4o, Gemini 1.5 Flash)이 가장 높은 성능을 기록!
→ 단점: GPT-4o는 OpenAI의 유료 서비스로 접근성이 제한적
2️⃣ Fine-tuned 모델 → 꽤 높은 성능이지만 훈련 데이터에 의존
- POLITICS 모델: 상관계수 0.86 (전문가 코딩 기준)
- Fine-tuned DistilBERT: 0.76
- RoBERTa Base: 0.76
📌 결론:
→ Fine-tuned 모델도 꽤 좋은 성능을 보였지만, 훈련 데이터가 부족하면 성능이 급격히 떨어짐
→ 특정 문서 유형(예: 공약집)에서 훈련된 모델은 다른 유형의 정치 텍스트(예: 국회 연설)에서는 성능이 저하됨
3️⃣ Zero-shot 모델 → 경제 이념 감지에 실패
- DistilBART: 0.61 (전문가 코딩 기준) → Zero-shot 모델 중 가장 높은 성능
- 다른 모델(DeBERTa, RoBERTa Large XNLI 등)은 대부분 낮은 성능을 기록
- 특히 중립적인 텍스트를 잘못 분류하는 경향이 있음
📌 결론:
→ Zero-shot 모델은 경제 이념 감지에 실패하는 경우가 많았으며, 신뢰하기 어려움
→ 추가적인 Prompt Engineering(프롬프트 조정)으로 성능이 다소 개선될 수 있음
🔮 결론: 연구자가 이 논문에서 배울 점
- 정치 텍스트에서 경제 이념을 분석할 때는 생성형 AI 모델(GPT-4o, Gemini 1.5 Flash)이 가장 정확함
- Fine-tuned 모델도 효과적이지만, 훈련 데이터가 많아야 성능이 유지됨
- Zero-shot 모델만으로는 경제 이념을 정확하게 측정하기 어려움
이 논문은 머신러닝을 활용한 정치 텍스트 분석의 가능성과 한계를 명확히 보여주는 연구로, 앞으로 이념 분석 연구에서 중요한 참고 자료가 될 것입니다. 🚀