
AI는 정말 가장 중요한 이슈를 파악할 수 있을까?
최근 Research & Politics 저널(2024년 1월호)에 실린 논문 "Do AIs know what the most important issue is? Using language models to code open-text social survey responses at scale"는 대규모 언어 모델(LLM, Large Language Models)이 개방형(open-text) 설문 응답을 얼마나 정확하게 분류할 수 있는지 탐구한 연구다. 이 논문은 AI 기술이 공공 여론 조사 및 사회 과학 연구에서 어떻게 활용될 수 있는지를 실증적으로 검토하며, 특히 인간 코더와의 비교를 통해 AI의 성능을 평가했다. 이번 리뷰에서는 연구의 핵심 내용과 의미를 심층적으로 분석해보고자 한다.
연구 배경: 개방형 질문과 AI의 가능성
사회과학 연구에서 개방형 설문 질문은 응답자의 자유로운 의견을 반영할 수 있다는 점에서 유용하지만, 이를 분석하는 과정은 상당히 어렵고 시간이 많이 든다. 연구자들은 응답을 정리하고 분류하는 데 많은 노동력과 시간이 필요하며, 인간 코더를 고용하는 경우 비용도 상당하다. 게다가 인간 코딩은 주관적 편향이 개입될 가능성이 있으며, 연구자마다 분류 기준이 일관되지 않을 수도 있다.
최근 인공지능 기술의 발전으로 대규모 언어 모델(LLM)이 개방형 응답을 보다 효율적으로 분석할 수 있는 가능성이 제기되었다. 특히, LLM은 자연어를 이해하고 몇 가지 예시만 제공해도 응답을 자동으로 분류할 수 있는 능력을 보유하고 있어, 연구자들이 설문 응답을 보다 신속하고 정확하게 분석할 수 있도록 도와줄 수 있다. 본 연구는 이러한 AI 기반 코딩의 가능성을 검증하기 위해 수행되었다.
연구 방법: AI, 머신러닝, 그리고 인간 코더의 비교
연구진은 AI 모델과 인간 코더의 성능을 비교하기 위해 두 가지 실험 시나리오를 설정했다:
- 새로운 질문(Novel Question) 시나리오: 기존에 코딩된 데이터가 없는 상황에서, LLM이 얼마나 정확하게 새로운 응답을 분류할 수 있는지를 평가.
- 기존 질문(Existing Question) 시나리오: 대량의 학습 데이터를 기반으로 LLM이 새롭게 수집된 응답을 분류할 때의 성능을 평가.
이를 위해 연구진은 "영국 선거 연구(British Election Study Internet Panel, BESIP)"에서 수집된 "가장 중요한 이슈(Most Important Issue, MII)" 질문의 개방형 응답 데이터를 사용했다. 실험에서 비교된 모델은 다음과 같다:
- 대규모 언어 모델(LLM): Claude-1.3, Claude-2, GPT-4, GPT-3.5, PaLM-2, Llama-2 등.
- 기계 학습 모델(Supervised Learning): SVM(Support Vector Machine), DistilRoBERTa, BERT 기반 신경망(Neural Network).
- 인간 코더(Human Coder): 기존 연구에서 수작업으로 코딩된 데이터를 정답 데이터로 사용.
질문과 응답 데이터
연구에서 사용된 데이터는 BESIP(2014~2022)에서 수집된 설문 응답으로, 응답자들은 "현재 국가가 직면한 가장 중요한 문제는 무엇인가?"라는 질문에 개방형 응답을 제공했다. 응답 데이터는 다양한 주제를 포함했으며, 대표적으로 다음과 같은 내용이 포함되었다:
- 경제 문제: "생활비 상승", "물가 상승", "임금 정체"
- 보건 이슈: "코로나19 대책", "국민 건강 서비스(NHS)의 부족"
- 이민 및 국경 관리: "불법 이민 문제", "이민자 증가로 인한 공공 서비스 부담"
- 환경 문제: "기후 변화 대응 부족", "환경 정책 미흡"
- 정치 및 정부 운영: "정부 부패", "정치적 리더십 부족"
응답 데이터는 50개 사전 정의된 카테고리로 분류되었으며, 각 모델과 인간 코더가 이 데이터에 대해 얼마나 정확하게 분류하는지를 평가하였다.
테스트 방식
- LLM 테스트: LLM은 "Few-shot Learning" 기법을 활용하여, 몇 가지 예제만을 제공받고 응답을 자동으로 분류하도록 설정되었다. 연구진은 각 LLM에 동일한 프롬프트(prompt)를 제공하여 50개의 사전 정의된 카테고리로 응답을 분류하도록 요청했다. 프롬프트에는 BESIP의 질문 설명과 분류 기준이 포함되었으며, 각 카테고리에 대한 예제 응답을 세 개씩 제공하여 LLM이 보다 일관된 분류를 수행할 수 있도록 유도했다. 예를 들어, "기후 변화 대응 부족"과 같은 응답은 "환경 문제" 카테고리에 속해야 한다는 예시를 포함하여, 모델이 카테고리 간 차이를 명확히 인식할 수 있도록 했다. 이후 LLM의 출력을 인간 코더의 결과와 비교하여 정확도를 평가하였다. LLM의 출력을 보정하기 위해 응답이 없는 경우 최대 두 번 재시도하는 방법을 사용하였다.
- 기계 학습 모델 테스트: 기존 데이터를 이용하여 SVM, DistilRoBERTa, BERT 기반 신경망 모델을 학습시킨 후, 새로운 응답을 자동으로 분류하도록 하였다.
- 학습 데이터: BESIP의 과거 응답 데이터(576,000개)
- 평가 데이터: 21~23차 웨이브에서 수집된 새로운 응답(81,266개)
- 평가 기준: 정확도(Accuracy), Cohen’s Kappa, F1-score 등
- 머신러닝 모델은 텍스트를 벡터화하여 입력값으로 사용했으며, 분류 결과를 최적화하기 위해 하이퍼파라미터 튜닝을 수행하였다.
- 인간 코더 테스트: 기존 연구에서 수작업으로 코딩된 데이터를 기준으로 새로운 데이터를 수작업으로 분류한 인간 코더와 비교하여 평가하였다.
- 샘플: 1,000개의 랜덤 선택된 응답
- 평가 기준: 인간 코더 간 일관성(Cohen’s Kappa)
- 인간 코더는 기존의 분류 기준을 준수하도록 1시간의 훈련을 받은 후 실험에 참여하였다.
연구 결과: AI 모델과 인간 코더의 성능 비교
연구 결과, LLM은 기존 머신러닝 모델보다 뛰어난 성능을 보였으며, 일부 시나리오에서는 인간 코더와 거의 동등한 수준의 정확도를 기록했다.
- 새로운 질문(Novel Question) 시나리오:
- 인간 코더의 정확도: 86.6%
- LLM 중 최고 성능 모델(Claude-1.3): 81.0%
- 기존 머신러닝 모델(신경망): 74.3%
- SVM: 64.8%
- Llama-2 및 PaLM-2는 최하위 성능
- 기존 질문(Existing Question) 시나리오:
- 인간 코더의 정확도: 88.6%
- LLM 중 최고 성능 모델(Claude-1.3): 80.9%
- 기존 머신러닝 모델(DistilRoBERTa): 77.8%
주요 발견
- Claude-1.3, Claude-2, GPT-4는 인간 코더에 근접하는 정확도를 기록하며, 특히 GPT-3.5나 PaLM-2보다 우수한 성능을 보였다.
- 전통적인 머신러닝 모델(SVM 등)은 상대적으로 낮은 성능을 보였으며, 특히 Llama-2와 PaLM-2는 대규모 언어 모델임에도 불구하고 저조한 결과를 나타냈다.
- 대량의 학습 데이터가 존재하는 경우(Existing Question 시나리오), LLM은 기존 머신러닝 모델을 확연히 능가했다.
- AI를 활용하면 코딩 작업의 시간과 비용을 크게 절감할 수 있으며, 연구자들은 보다 신속하게 개방형 설문 응답을 분석할 수 있다.