Article Review

[정치학/LLM설문] Mellon et al (2024) 가장 중요한 이슈’를 AI가 분류할 수 있을까?

Dr. Julia 2025. 5. 18. 10:03

 

 

🧠 연구 배경: ‘가장 중요한 이슈’를 AI가 분류할 수 있을까?

사회조사에서 “지금 당신이 생각하기에, 이 나라에서 가장 중요한 문제는 무엇입니까?”라는 질문은 굉장히 많이 사용되는 문항입니다. 이 질문은 단순히 응답자의 정치적 입장이나 정책 선호를 묻는 것이 아니라, 어떤 사안이 시민의 일상에 얼마나 큰 영향을 미치는지, 또는 어떤 가치가 사회적으로 중요한지를 드러내는 아주 깊이 있는 질문입니다. 정치학자들은 이를 Most Important Issue (MII) 문항이라고 부르며, 주로 이슈 살리언스(issue salience) 연구에서 핵심 지표로 사용해 왔습니다(Bevan et al., 2016; Dennison, 2019).

하지만 이 문항의 가장 큰 특징은 바로 **개방형(open-ended)**이라는 점입니다. 선택지를 미리 제시하는 폐쇄형(closed-ended) 문항과 달리, 응답자는 자신의 말로 자유롭게 답을 작성합니다. 예를 들어 “물가가 너무 올라서 걱정된다”, “젊은 사람들이 집을 못 사는 게 문제다”, “기후변화 대응이 너무 늦다”와 같이, 누구도 예상하지 못한 표현이나 단어를 사용할 수 있습니다.

그런데 여기서부터 문제가 시작됩니다. 개방형 응답은 해석하고 정리하기가 매우 어렵습니다. 정량 분석을 하려면 결국 응답 내용을 일정한 기준에 따라 범주화(coding) 해야 하는데, 이 작업이 생각보다 굉장히 노동집약적이고 반복적이며, 사람 간 판단 차이도 큽니다. 그래서 많은 연구자들이 “이 중요한 질문을 그냥 폐쇄형으로 바꿔서 쓰자”고 결정하기도 하고, 혹은 아예 질문 자체를 포기하기도 합니다.

이런 현실 속에서, 최근 **대규모 언어모델(LLM)**의 발전은 진정한 게임 체인저로 떠오르고 있습니다. 만약 LLM이 이 복잡한 개방형 응답을 사람처럼 정확하게 분류할 수 있다면? 조사자는 반복적이고 고된 코딩 작업에서 해방될 수 있고, 조사 설계 자체도 보다 자유롭고 창의적으로 바뀔 수 있습니다.

Mellon 외 연구팀은 바로 이 지점을 실험적으로 검증합니다. “LLM이 인간 수준으로 MII 응답을 분류할 수 있는가?”, “기존 머신러닝보다 나은가?”, “사람보다 빠르고 정확한가?” 이 질문에 대해 정밀하고도 체계적으로 답하고자 한 것이 이 연구의 출발점입니다.


📚 문헌 리뷰: LLM의 가능성과 한계

최근 몇 년 사이, LLM의 활용은 정치학, 사회학, 커뮤니케이션학 등 다양한 사회과학 분야에서 급속히 확대되고 있습니다. 특히 텍스트 데이터를 다루는 연구에서 LLM은 새로운 기준을 제시하고 있는데요, 이 논문에서는 그 선행 연구들을 종합하면서 가능성과 한계를 모두 짚고 갑니다.

✅ 가능성: 이미 여러 분야에서 인간과 비슷하거나 더 나은 성능을 보여줌

  • 감성 분석(Sentiment Analysis)
    트윗 감성 분류나 여론조사 문항의 감정 분류에서 LLM은 비전문 인간 코더 수준 혹은 그 이상으로 작동합니다(Ornstein et al., 2022).
  • 정치 담론 분석
    LLM은 정치 광고의 톤 분석, 연설문에 등장하는 미덕 분석, 정당 강령의 이념 위치 측정 등에 활용되며, 기존의 통계적 방법보다 더 섬세한 결과를 보여주기도 했습니다.
  • 혐오 표현 판별
    ChatGPT가 명시적이지 않은 혐오 표현을 분류하고 설명하는 데 있어 사람보다 더 일관적일 수 있다는 연구도 등장했습니다(Huang et al., 2023).
  • 설문 문항 설명 생성
    LLM은 단순히 분류할 뿐 아니라, 왜 그렇게 판단했는지를 자연어로 설명하는 것도 가능하기 때문에, 해석의 투명성과 신뢰성을 동시에 확보할 수 있습니다.

❌ 한계: 모든 작업에서 잘 작동하는 것은 아님

하지만 LLM이 만능은 아닙니다. 어떤 작업에서는 기존의 머신러닝보다 오히려 성능이 낮습니다. 예를 들어,

  • 성격 특성 예측(Personality Prediction)
    개인 성격을 LLM으로 분류하는 작업에서는 오히려 정확도가 떨어졌습니다(Amin et al., 2023).
  • 자살 위험도 감지
    심리적 민감도가 요구되는 분야에서는 기존의 특화된 머신러닝 모델보다 성능이 떨어진다는 결과가 나왔습니다.
  • 비영어 데이터
    LLM은 영어에 최적화되어 있기 때문에, 한국어, 독일어, 아랍어 같은 비영어 데이터에서는 분류 정확도가 낮다는 연구도 많습니다(Lai et al., 2023).

결국, LLM이 모든 사회과학 과제에서 뛰어난 것은 아니며, 문제 유형, 데이터 구조, 언어, 응답자의 표현 방식에 따라 성능이 크게 달라질 수 있습니다.


🧩 이론적 배경: LLM은 ‘지식’ 없이도 분류할 수 있을까?

이 논문의 가장 흥미로운 실험은 바로 이 질문에 대한 실증 검증입니다. LLM은 정말로 학습된 데이터 없이, 단지 몇 개의 예시(few-shot)만 보고도 새로운 문항에 대한 분류가 가능한가?

기존의 지도학습(supervised learning) 접근은 반드시 “학습용 레이블 데이터”가 필요합니다. 사람이 미리 코딩한 데이터를 모델에 학습시켜야만 새로운 문항을 분류할 수 있습니다. 그런데 이게 문제입니다. 데이터를 직접 코딩할 여유가 없거나 새로운 문항이 계속 생기는 상황에서는 지도학습이 매우 비효율적일 수 있습니다.

반면 LLM은 대규모 텍스트로 사전학습(pretraining)되어 있기 때문에, 주어진 과제를 자연어로 설명해주기만 해도 어느 정도 추론할 수 있습니다. 이를 **“few-shot learning”**이라고 부르며, Brown et al. (2020)의 GPT-3 논문에서 크게 주목받았습니다.

이 연구는 LLM이 학습 데이터 없이도 응답자 텍스트를 이해하고, 제시된 카테고리에 맞게 분류할 수 있는지를 테스트합니다. 연구자들은 LLM에 단지 3개의 예시 응답자연어로 된 분류 설명을 제시하고, 그 결과를 사람과 비교합니다. 이는 기존 연구에서는 상상하기 어려운 접근이었습니다.

여기서 핵심은, **LLM이 단어 수준에서 작동하는 것이 아니라 의미 단위(semantic meaning)**에서 작동한다는 점입니다. 즉, 단순히 "경제"라는 단어가 나왔는지가 아니라, **"물가가 올라서 힘들다"**라는 문장을 보고 그것이 경제 관련 이슈임을 추론하는 능력이 있다는 것입니다.

정리하자면, 이론적으로 LLM은 다음과 같은 강점을 가질 수 있습니다:

  • 새로운 문항에 대한 적응력 (zero/few-shot inference)
  • 비정형적 응답에 대한 유연한 해석
  • 프롬프트 설계를 통해 사람이 작업하듯 자연어로 지시 가능

하지만 이러한 강점은 LLM의 훈련 데이터, 모델 구조, 언어적 능력 등에 크게 좌우됩니다. 결국 이 논문의 목적은 **“그 능력이 실제로 얼마나 정확한가?”**를 다양한 모델, 다양한 상황에서 엄밀하게 측정하는 것이었습니다.

 

🧪 연구 설계 및 방법론: 엄청나게 정교한 비교 실험

이번 연구의 핵심은 아주 단순합니다.
“AI는 사람처럼 개방형 설문 응답을 분류할 수 있을까?”

하지만 이 단순한 질문에 객관적으로, 엄밀하게, 비교 가능하게 답하려면 연구 설계는 매우 복잡해질 수밖에 없습니다. Mellon 외 연구진은 이 과제를 위해 사람, 지도학습, 최신 LLM을 전방위적으로 비교하면서, 우리가 흔히 놓치는 요소까지 고려한 아주 꼼꼼한 실험을 설계했습니다.


🧾 분석 대상 데이터: 영국선거연구(BESIP)의 ‘가장 중요한 이슈’ 응답

실험에 사용된 데이터는 **British Election Study Internet Panel (BESIP)**입니다. 이 패널은 2014년부터 2022년까지 총 23개의 조사 웨이브에서 온라인으로 유권자를 조사한 방대한 데이터셋입니다. 특히 개방형 문항으로 다음과 같은 질문을 던집니다:

“As far as you’re concerned, what is the SINGLE MOST important issue facing the country at the present time?”

응답자들은 자신의 말로 이 질문에 답합니다. 어떤 응답자는 “물가가 너무 올라서 삶이 어렵다”, 어떤 사람은 “NHS(영국의 공공보건 시스템)의 붕괴가 심각하다”고 답할 수 있죠.

전체적으로는 65만 개 이상의 응답이 있으며, 연구진은 이를 최대 50개의 세부 카테고리(예: 경제, 건강, 교육, 환경 등) 또는 13개의 상위 카테고리로 분류했습니다. 이 범주는 사전에 BES 팀에서 정한 체계입니다.


🧪 실험 설계: 2가지 시나리오로 나눠서 비교

연구진은 AI의 분류 능력을 실험하기 위해 두 가지 주요 시나리오를 설정합니다. 이 시나리오는 실제 연구자가 텍스트 데이터를 분류할 때 겪는 현실적인 상황을 반영합니다.

1️⃣ 시나리오 1: New Question (새로운 질문 상황)

  • 의미: 이전에 학습된 데이터가 없거나 매우 적은 상태에서, 새롭게 수집된 개방형 응답을 분류해야 하는 상황
  • 지도학습 모델: BESIP 웨이브 21~23의 응답 중 1,000건을 사람이 직접 분류한 데이터를 학습 데이터로 사용
  • LLM: fine-tuning 없이, 단지 몇 개의 예시(few-shot)를 프롬프트에 포함하여 분류 작업 수행
  • 테스트 데이터:
    • 전체 응답: 81,266건
    • 고유한 응답만 추출한 데이터셋 (즉, 중복 없는 특이 응답): 14,923건

→ 이 시나리오는 “데이터가 새롭고 희귀하며, 레이블도 부족한 상황”을 시뮬레이션합니다. 현실에서도 새로운 설문 문항을 추가하거나, 해외 응답을 분석할 때 자주 마주치는 조건입니다.

2️⃣ 시나리오 2: Existing Question (기존 질문 상황)

  • 의미: 이미 과거에 사람 손으로 분류된 대량의 학습 데이터가 존재하는 상황에서, 새로운 응답만 추가로 분류해야 하는 경우
  • 지도학습 모델: BESIP 웨이브 1~20의 576,000건 데이터를 학습에 사용
  • LLM: 여전히 few-shot prompting만 사용 (fine-tuning 없이)
  • 테스트 데이터: 웨이브 21~23에서 기존에 없었던 새로운 응답 13,965건

→ 이 시나리오는 “기존 체계와 축적된 데이터가 많은 설문에서, 새로운 데이터만 신속하게 분류해야 할 때”를 상정합니다.


👥 비교 대상: 인간 vs. 지도학습 vs. LLM

이 연구의 진짜 묘미는, 단지 AI끼리 비교한 것이 아니라 ‘사람과 비교’했다는 점입니다. 정확히 말하면 다음과 같은 다섯 주체를 비교합니다.

  1. 원래 코딩을 수행한 전문 인간 코더 (gold standard)
  2. 새로운 인간 코더 (1시간 사전 교육 후 1,000건 무작위 코딩 수행)
  3. 지도학습 모델
    • 전통적 SVM (Support Vector Machine)
    • DistilRoBERTa (경량화된 RoBERTa 모델)
    • BERT 임베딩 기반 신경망 (custom neural network)
  4. LLMs (Few-shot prompting 사용)
    • GPT-3.5 (OpenAI)
    • GPT-4 (OpenAI)
    • Claude-1.3, Claude-2 (Anthropic)
    • PaLM-2 (Google)
    • Llama-2 (Meta)

🧠 LLM 사용 방법: Prompt 기반 Few-Shot 분류

LLM은 사람이 직접 데이터를 코딩해서 학습시키지 않습니다. 대신, **자연어로 설명된 지시문(prompt)**과 3개의 예시만 제시하여 작업을 수행합니다. 이걸 few-shot learning이라고 하죠.

프롬프트의 구성은 다음과 같습니다:

pgsql
CopyEdit
Here are some open-ended responses from the British Election Study to the question “what is the most important issue facing the country?”. Please assign one of the following categories to each open ended text response, returning the original response and the most relevant label.
  • 50개 카테고리 목록을 포함
  • 러시아-우크라이나 전쟁처럼 최근 사건도 반영
  • 예시 응답 3개 제공
  • 단일 라벨만 출력하라는 지시

이 방식은 인간 연구조교에게 “이런 방식으로 분류해줘”라고 설명하는 것과 매우 유사합니다.

또한 오류를 줄이기 위해 다음과 같은 전처리 작업도 했습니다:

  • LLM이 출력한 다중 레이블 중 첫 번째만 사용
  • label 명칭의 대소문자 통일
  • 실패 응답은 2번까지 재시도
  • 코로나를 “covid”라고 출력했을 때 → “coronavirus”로 통일

🛠 지도학습 모델 구성

지도학습은 다음과 같은 세 가지 모델을 사용했습니다:

1. SVM (Support Vector Machine)

  • 전통적인 분류기
  • R의 RTextTools 패키지 사용
  • 최소한의 전처리: 숫자 제거, 어간 추출 등
  • 가볍고 빠르지만 성능은 낮음

2. DistilRoBERTa

  • RoBERTa를 경량화한 사전학습 모델(Sanh et al., 2020)
  • 82M 파라미터
  • 1,000개 혹은 57만 개 데이터로 fine-tuning 수행

3. BERT 임베딩 기반 신경망

  • 응답 텍스트를 BERT embedding으로 변환 → 고차원 의미 공간으로 위치
  • 그 임베딩을 신경망에 넣어 분류 수행
  • 데이터에 없는 단어를 사용한 응답도 유사 의미 기반으로 분류 가능

→ 이 두 모델은 최근 여러 연구에서 우수한 성능을 보여줬습니다(예: Gu et al., 2022; Ramos and Chang, 2023).


🎯 평가 기준

모든 모델의 성능은 다음 기준으로 평가됩니다:

  • 정확도(Accuracy): 원래 인간 코더와 일치한 응답 비율
  • 코헨의 카파(Cohen's Kappa): 우연 일치를 통제한 정밀도
  • F1-score: 정밀도와 재현율의 조화 평균
  • ROC AUC
  • Pedersen index

→ 정밀한 비교를 위해 50개 세부 카테고리, 13개 상위 카테고리로 나눠서 각각 평가했습니다.

 

📊 연구 결과: Claude는 인간에 육박, GPT-4는 고비용, PaLM과 Llama는 부진

📍 새로운 질문 시나리오 (few-shot, 1,000건 학습)

  • Claude-1.3: 전체 정확도 93.9%, 인간 코더(94.7%)와 유사
  • GPT-4: 90.1% 정확도
  • GPT-3.5: 84.5%
  • DistilRoBERTa: 67.7%
  • BERT 신경망: 74.3%
  • SVM: 64.8%
  • PaLM-2, Llama-2: 50%대의 낮은 정확도

📍 기존 질문 시나리오 (훈련 데이터 57만 건)

  • Claude-1.3: 50개 세부 카테고리 기준 86.9%
  • 인간 코더: 94.6%
  • GPT-4: 86.8%
  • DistilRoBERTa: 77.8%
  • GPT-3.5: 약 80%
  • PaLM-2, Llama-2: 여전히 부진

Claude-1.3은 비용도 낮고 성능도 뛰어나며, GPT-4는 성능은 우수하지만 비용이 20배 이상 높습니다. GPT-3.5는 GPT-4에 비해 저렴하지만 성능은 다소 떨어집니다.


🧾 결론 및 함의: 사회조사 분석에 새로운 문이 열리다

이 연구는 몇 가지 중요한 결론을 제시합니다.

  • LLM은 인간 수준의 개방형 문항 분류가 가능하다. 특히 Claude 계열은 높은 성능과 낮은 비용으로 실용성이 뛰어나다.
  • 지도학습보다 LLM이 간편하다. LLM은 별도 학습 없이 자연어 설명만으로 과제를 수행할 수 있으므로, 시간과 인력, 계산 비용을 크게 줄일 수 있다.
  • 개방형 문항의 활용 가능성이 확대된다. 기존에는 분석 부담 때문에 잘 쓰이지 않았던 개방형 문항을 LLM이 처리함으로써, 보다 자유롭고 예측 불가능한 응답을 수집할 수 있다.
  • 다만 검증은 필수이다. LLM의 결과도 사람이 직접 검토하고 수정해야 하며, 프롬프트 설계가 중요하다.

✍️ 마무리: AI가 조사연구를 바꿀 수 있을까?

이 논문은 단순한 정확도 비교를 넘어, 사회과학에서 개방형 질문의 활용도를 높이고, 연구자와 조사기관의 작업 부담을 줄이며, 분석 비용을 낮출 수 있는 가능성을 실증적으로 보여주고 있습니다.

앞으로 LLM이 더 발전하면, 설문 응답의 감정, 인지, 태도 같은 복합적이고 추상적인 특성까지도 효과적으로 분석할 수 있을지도 모릅니다. 물론 언어 편향, 프라이버시, 재현성 문제는 여전히 고민해야 할 과제입니다(Spirling, 2023; Lai et al., 2023). 하지만 Mellon 외 연구진의 이 연구는 분명히 말합니다. “AI는 이제 설문 문항의 의미를 이해할 수 있다”고요.