🧠 인간 전문가 없이도 정치 텍스트를 정확하게 분류할 수 있을까?
― GPT-4는 정치학자들의 시간을 얼마나 절약해줄 수 있는가
정치학을 비롯한 사회과학에서 **‘텍스트를 자료로 다루는 연구(text-as-data)’**는 이제 하나의 표준이 되었습니다. 선거 공약 분석, 정당 담론 비교, 정치인의 SNS 발언 추적까지, 이 모든 것이 텍스트 분석에 해당됩니다. 특히 **감정 분석(sentiment analysis)**이나 **이데올로기 분류(ideology classification)**처럼 텍스트에 숨은 의미를 파악하는 작업은 고급 분석을 위해 필수적이죠.
하지만 이 모든 분석의 전제는 무엇일까요? 바로 **정확하게 분류된 데이터(training data)**입니다. 그리고 그 데이터는 보통 수천 건의 텍스트를 일일이 사람 손으로 라벨링해야 만들어집니다. 이것이 지금까지 사회과학자들이 마주한 가장 큰 허들이었습니다.
그런데 최근 등장한 GPT-4와 같은 **대형 언어 모델(LLM)**이 이 문제를 해결할 수 있을지도 모릅니다. 이 논문은 바로 그 가능성을 평가한 선구적인 연구입니다.
🔍 연구의 출발점: 기존 방식의 한계와 LLM의 가능성
정치학과 사회과학에서 텍스트 분석(text-as-data) 접근법은 점점 더 널리 사용되고 있습니다. 특히 최근 몇 년 사이, 의회 발언 분석, 뉴스 미디어의 감정 분석, SNS 상의 혐오 표현 탐지 등 다양한 주제를 자동화된 방법으로 분석하는 연구들이 빠르게 증가해왔습니다.
예컨대, Ballard et al. (2023)은 의회 의원들의 트윗에서 분극화된 수사(polarizing rhetoric)의 동학을 분석했고, Rozado et al. (2022)은 뉴스 헤드라인의 감정 및 정서적 경향을 장기간에 걸쳐 추적했으며, Mozafari et al. (2020)은 BERT를 활용해 소셜미디어 상의 혐오 표현을 탐지하는 방법을 제시했습니다.
이러한 연구들은 대부분 지도학습(supervised machine learning) 기반입니다. 즉, 기계가 학습할 수 있도록 사람이 사전에 라벨(label)을 붙인 데이터가 반드시 필요합니다. 이 라벨링은 정치성 여부, 감정의 방향(긍정/부정/중립), 또는 이데올로기적 성향(좌/우/중도)과 같은 복잡한 내용을 다루기 때문에, 단순한 노동이 아니라 전문가의 해석과 판단이 요구되는 고비용 작업입니다.
❗ 문제는 ‘사람 손’에 있습니다.
지도학습을 적용하려면 보통 **수천에서 수만 건의 텍스트를 사람이 직접 분류(annotate)**해야 하고, 경우에 따라 **복수의 코더 간 일치도(inter-coder agreement)**까지 검토해야 합니다. 연구 설계나 주제에 따라선 텍스트 한 건당 2명 이상의 코더가 참여하기도 하며, 이 모든 과정은 막대한 시간과 자원을 소모하게 됩니다.
논문에서는 이를 다음과 같이 지적합니다:
“Depending on the complexity of the task, reliable modelling requires training data ranging in the 1,000s to 10,000s of annotated text examples, often from multiple coders. This places severe financial and time constraints on researchers.” (p.1)
🤖 이런 문제를 해결할 수 있는 대안이 등장했습니다: LLM
최근 ChatGPT, GPT-4와 같은 **대형 언어 모델(Large Language Models, LLMs)**이 등장하면서, 사람이 직접 해야 했던 라벨링 작업을 자동화할 수 있는 가능성이 열렸습니다. 즉, 사람이 아닌 인공지능에게 수천 개의 텍스트를 분류하게 하고, 이를 분석에 활용할 수 있다면 연구비와 시간이 크게 절약될 수 있습니다.
이미 일부 선행 연구에서는 LLM의 가능성을 적극적으로 시험하고 있습니다.
- Wu et al. (2023): LLM을 활용해 정치인의 이데올로기를 별도의 훈련 없이 추정하는 제로샷(Zero-shot) 기법을 제안
- Nay (2023): LLM이 의회의 법안 텍스트를 분류하는 데 사용할 수 있음을 보임
- Huang et al. (2023): LLM이 혐오 표현을 탐지하는 데 인간 코더보다 더 나은 성능을 낼 수 있음을 실험
- Gilardi et al. (2023): GPT 모델이 크라우드 워커보다 높은 품질의 분류 결과를 산출
- Tornberg (2023): GPT-4가 전문가나 크라우드 워커를 제치고 트위터 정치 메시지를 더 정확하게 분류
이처럼 여러 논문이 LLM이 기존 분류자(human annotator)를 대체하거나 능가할 수 있다는 가능성을 보이고 있습니다.
🌐 다국어 텍스트에도 적용 가능?
또한 LLM은 영어뿐 아니라 다국어 텍스트 분류에서도 가능성을 보이고 있습니다.
**Kuzman et al. (2023)**은 GPT-4가 장르 분류 같은 작업에서 다양한 언어에 걸쳐 안정적인 성능을 보인다고 보고했고, **Johnson et al. (2022)**은 LLM이 미국 중심적 문화 편향(American-centric value conflict)을 가질 수 있다는 점을 경고하면서도, 언어 감지와 번역 기능이 탑재되어 있는 LLM의 활용 가능성을 열어두었습니다.
논문 저자들은 이렇게 평가합니다:
“LLM classification may therefore be a viable means of reducing manual annotation labour and cutting costs, while providing high levels of classification accuracy or even outperforming human coders.” (p.2)
🧩 그럼에도 불구하고, 기존 연구에는 한계가 있었습니다.
앞서 언급한 LLM 기반 연구들은 대체로 다음의 한계를 갖고 있었습니다:
- **단일 작업(single task)**만 수행하거나
- 단일 국가/언어에만 국한되거나
- 결과 데이터를 실제 분석에 사용하는 downstream test를 수행하지 않음
이에 비해, 이 논문은 기존 연구보다 더 포괄적이고 응용지향적인 시도를 합니다. 구체적으로 다음의 네 가지 점에서 차별화됩니다.
- 트윗뿐 아니라 뉴스 기사 같은 긴 텍스트에 대해서도 GPT-4 성능을 평가
- 미국뿐 아니라 칠레, 독일, 이탈리아의 정치인 트윗도 포함
- GPT-4 결과를 사람이 재검토하는 하이브리드 방식 도입
- GPT-4로 생성한 데이터 기반으로 실제 BERTweet 모델을 학습시켜 분석 결과 비교
즉, 이 논문은 단순히 “GPT-4가 사람처럼 분류할 수 있는가?”라는 질문을 넘어서, “GPT-4가 실제 사회과학 연구에서 사람을 대체할 수 있는가?”라는 보다 본질적인 질문에 대답하고 있습니다.
🧪 실험 설계: 미국과 유럽, 라틴아메리카를 넘나든 대규모 테스트
이 연구의 강점 중 하나는 단순히 "GPT-4가 사람처럼 분류할 수 있는가?"를 테스트한 것이 아니라, 다양한 국가, 다양한 언어, 다양한 텍스트 유형을 포괄한 정교한 실험 설계를 구축했다는 점입니다.
연구자들은 GPT-4가 정치 텍스트를 얼마나 정확하게 분류하는지를 다차원적 조건 아래에서 종합적으로 평가합니다.
📌 실험의 기본 틀
연구진은 총 네 가지 분류 기준을 중심으로 실험을 설계했습니다. 각각의 기준은 사회과학 연구에서 자주 사용되는 정치 텍스트 분류 항목입니다.
정치성 여부 | 이진 (Political / Non-political) | 텍스트가 정치와 관련된 내용을 담고 있는가? |
부정성 여부 | 이진 (Negative / Not Negative) | 부정적 정서 또는 비판이 포함되어 있는가? |
감정 분류 | 3분류 (Positive / Neutral / Negative) | 텍스트의 전반적 감정적 분위기는? |
이데올로기 성향 | 3분류 (Left / Center / Right) | 이 텍스트가 보여주는 정치적 방향성은? |
이 네 가지 분류는 정치학, 커뮤니케이션, 여론 분석 분야에서 자주 사용되는 핵심 범주이며, 이들 각각에 대해 GPT-4와 사람 전문가의 분류 결과를 비교하는 것이 실험의 핵심입니다.
🌎 실험 대상 국가 및 언어
LLM이 영어에 최적화되어 있다는 점을 고려할 때, **다국어 평가(multilingual evaluation)**는 매우 중요한 요소입니다.
연구진은 다음 네 국가를 실험 대상지로 선정했습니다:
- 미국 (영어): 트윗과 뉴스 기사 포함
- 칠레 (스페인어): 국회의원 트윗
- 독일 (독일어): 국회의원 트윗
- 이탈리아 (이탈리아어): 국회의원 트윗
“This multi-country approach still goes beyond existing U.S.-focused evidence.” (본문 p.3)
이 중 미국은 가장 풍부한 데이터와 다양한 텍스트 유형을 포함했으며, **뉴스 기사(긴 텍스트)**까지 포함되어 텍스트 길이에 따른 성능 변화도 측정할 수 있었습니다.
🧾 데이터 구성
실험에 사용된 텍스트 데이터는 다음과 같이 구성됩니다:
미국 | 국회의원 트윗 | 635건 | 2009~2022년 사이 |
미국 | 뉴스 기사 | 200건 | 2016~2017년 주요 매체 |
칠레 | 의원 트윗 | 330건 | 다수는 스페인어 |
독일 | 의원 트윗 | 700건 | 독일어 |
이탈리아 | 의원 트윗 | 330건 | 이탈리아어 |
미국 뉴스 기사는 NYT, Washington Post, Bloomberg, Breitbart, Vox, The Atlantic 등 정치적 성향이 다양한 매체에서 랜덤 추출한 기사들로 구성되어 있습니다. 이 기사들은 주로 ‘정치성’과 ‘부정성’ 여부만 평가되었습니다. 왜냐하면 기사에는 명시적 감정이나 이데올로기가 드러나지 않는 경우가 많기 때문입니다.
👥 전문가 라벨링 기준
모든 텍스트는 사전에 사람 전문가가 라벨링한 결과를 ‘정답’(ground truth)으로 삼아 GPT-4의 성능을 평가합니다.
- 미국 데이터는 두 명의 전문가가 각각 분류한 뒤, 불일치한 항목은 상호 조율하여 최종 합의안을 도출
- 비미국 데이터(칠레, 독일, 이탈리아)는 해당 국가의 언어 및 정치적 맥락에 익숙한 전문가가 단독 분류한 후, 다른 연구자의 번역 및 리뷰를 거쳐 정답 확정
이처럼 철저하게 구축된 전문가 정답 데이터셋을 기반으로 GPT-4의 분류 성능을 평가한다는 점에서, 이 연구는 매우 신뢰도 높은 실험 구조를 갖고 있습니다.
🤖 GPT-4 분류 방식
GPT-4는 각 텍스트에 대해 두 번 분류 작업을 수행했습니다.
- 같은 텍스트에 대해 같은 지침(prompt)을 줬지만, GPT-4는 생성형 AI 특성상 약간씩 다른 결과를 냅니다.
- 이 점을 활용해 **두 GPT-4 결과 간 불일치(disagreement)**가 있는 경우를 확인하고, 그 경우에만 사람이 개입하는 하이브리드 방식을 도입합니다.
예를 들어, 한 트윗이 ‘부정적’인지 아닌지를 두 번의 GPT-4 호출에서 각각 다르게 판단했다면, 그 경우에만 사람이 판별에 개입합니다. 전체 데이터를 사람이 전수 코딩하지 않아도 된다는 점에서 효율성과 정확성의 균형을 꾀하는 방식입니다.
🔁 다운스트림 실험을 위한 확장 데이터
단순히 GPT-4의 분류 정확도만 측정하는 데서 그치지 않고, 연구진은 실험 결과가 실제 연구 결과에 미치는 영향을 분석하기 위해, 추가로 다음의 실험도 설계했습니다:
- 2022년 미국 의회 예비선거 후보 트윗 3,000건을
- 전문가, GPT-4 (2회), 하이브리드 방식으로 각각 분류하고
- 이 데이터를 기반으로 BERTweet 모델을 학습
- 전체 39만 트윗에 대해 감정 및 이데올로기 예측 실시
이 실험을 통해 **“GPT-4로 만든 라벨이 실제 분석 결과에 어떤 영향을 미치는가”**를 검증합니다.
✅ 정리: 이 실험이 갖는 의미
이 연구의 실험 설계는 단순한 성능 비교를 넘어서 다음과 같은 점에서 매우 선진적입니다:
- 언어 다양성: 영어뿐 아니라 스페인어, 독일어, 이탈리아어까지 평가
- 텍스트 유형 다양성: 짧은 트윗부터 긴 뉴스 기사까지 포함
- 분류 복잡도 다양성: 단순 이진 분류에서 복잡한 이데올로기 3분류까지
- 현실성 있는 평가 방식: GPT-4 결과를 실제 머신러닝 모델 학습에 사용
- 사람의 역할 최소화: 전체 코딩이 아니라 ‘불일치 항목만 점검’하는 하이브리드 방식 도입
결과적으로, 이 실험은 “LLM이 사람을 대체할 수 있는가?”라는 단순한 물음에 그치지 않고, 실제 사회과학 연구 환경에서 어떻게 활용할 수 있을지를 구체적으로 보여주는 테스트베드 역할을 하고 있습니다.
🤖 GPT-4 성능은 어느 정도일까?
연구진은 먼저 미국 연방의회 의원들의 트윗 635건을 대상으로 GPT-4의 분류 성능을 측정했습니다. 동일한 텍스트에 대해 GPT-4에게 두 차례 분류 작업을 시켜보고, 각각의 결과를 전문가 라벨과 비교했습니다.
정치 여부 (이진) | 88.3% / 91.1% | 93.4% (불일치율 7.6%) |
부정 여부 (이진) | 94.5% / 94.3% | 96.9% (불일치율 4.9%) |
감정 분류 (3분류) | 81.7% / 80.6% | 86.6% (불일치율 13.4%) |
이데올로기 (3분류) | 84.7% / 85.0% | 90.3% (불일치율 10.6%) |
➡️ 이진 분류에서는 GPT-4가 전문가 수준의 성능을 보여주었고,
➡️ 복잡한 다중 분류에서도 생각보다 높은 성능을 기록했습니다.
특히 감정과 이데올로기 분류의 경우, 사람 전문가들 간의 일치도(human-human agreement)도 각각 87.2%, **85%**였다는 점에서, GPT-4의 정확도는 상당히 신뢰할 수 있는 수준입니다.
하이브리드 방식으로 불일치한 사례만 소수의 인력으로 정정하면, 전체 정확도를 크게 향상시킬 수 있다는 것도 중요한 시사점입니다.
📄 텍스트가 길어지면 정확도는 어떻게 변할까?
짧은 트윗뿐 아니라, 실제 뉴스 기사처럼 길고 복잡한 텍스트에서 GPT-4가 어떻게 반응하는가도 중요한 질문입니다.
연구진은 뉴욕타임스(NYT), Bloomberg, Vox, Breitbart 등 미국 주요 언론사의 뉴스 기사 200건을 대상으로 실험을 진행했습니다.
정치 여부 | 약 91% | 95% ~ 96.5% |
부정 여부 | 약 94% | 76% ~ 80% |
➡️ 정치 여부 분류는 오히려 정확도가 더 높아졌습니다.
긴 기사일수록 정치 관련 키워드나 맥락이 더 풍부하게 포함되어 있기 때문입니다.
➡️ 반면 부정 여부 분류는 정확도가 크게 하락했습니다.
한 기사 안에 긍정적, 중립적, 부정적 표현이 뒤섞여 있거나, 톤이 모호한 경우가 많았기 때문입니다.
이는 GPT-4만의 한계가 아니라, 사람 코더들도 부정 여부를 일관되게 판단하기 어려운 상황과 일치합니다. 연구진은 “LLM이 어떤 작업에 강하고 어떤 작업에 약한지”를 텍스트의 길이와 복잡성 관점에서 고려할 필요가 있다고 강조합니다.
🌐 다국어 환경에서도 성능이 유지될까?
GPT-4는 영어에 최적화되어 훈련되었지만, 실제 연구 현장에서는 비영어권 데이터가 매우 중요합니다. 특히 비교 정치 연구에서는 스페인어, 독일어, 이탈리아어 등의 정치 텍스트를 분석할 일이 많죠.
연구진은 칠레, 독일, 이탈리아 의원들의 트윗을 수집하여 같은 실험을 반복했습니다.
정치 여부 | 약 88~90% |
부정 여부 | 약 85% 이상 |
감정 분류 | 약 76~79% |
이데올로기 | 약 81~84% |
➡️ 전반적으로 영어 트윗에 비해 약간 성능이 떨어지긴 하지만, 여전히 실용 가능한 수준입니다.
➡️ 특히 정치 여부 분류는 영어와 거의 비슷한 정확도를 기록했습니다.
하이브리드 방식을 도입하면 대부분의 분류 정확도가 90% 수준에 근접합니다.
또한 GPT-4는 자동 번역 및 언어 감지 기능을 활용하므로, 사람이 해당 언어를 몰라도 어느 정도의 자동 분류가 가능하다는 점에서 비영어권 연구자의 접근성을 크게 높일 수 있는 가능성을 보여줍니다.
🔁 GPT-4로 분류한 데이터로 모델을 학습하면 결과는 어떤가?
정확도 비교만으로는 충분하지 않습니다. 정말 중요한 질문은 이것입니다:
“GPT-4로 자동 라벨링한 데이터를 기반으로 학습한 분석 모델은 실제 분석 결과에 영향을 줄까?”
이를 확인하기 위해, 연구진은 2022년 미국 의회 예비선거 후보들의 트윗 30만여 건을 분석 대상으로 삼았습니다.
먼저 후보자 트윗 3,000건을 다음 네 가지 방식으로 라벨링했습니다:
- 사람 전문가가 직접 분류
- GPT-4 분류 (1회차)
- GPT-4 분류 (2회차)
- 하이브리드 방식 (불일치 사례만 사람 검토)
그리고 이 데이터를 기반으로 각각 BERTweet 모델을 학습시켜, 총 39만 개의 트윗에 대해 감정(부정 여부)과 이데올로기(좌/우 성향)를 예측했습니다.
🎯 결과는?
- 부정 트윗 비율은 네 가지 방식 모두 유사 (29~31% 수준)
- 이데올로기 점수도 당별 평균 및 시간적 추세가 거의 동일
- 후보 특성(성별, 정당, 트윗 수 등)을 독립 변수로 한 회귀분석 결과도 네 방식 모두 동일한 계수 및 유의도
➡️ 즉, GPT-4 라벨링으로 학습한 모델도 수작업 기반 모델과 분석 결과가 거의 완전히 동일했습니다.
✅ 핵심 결론: GPT-4는 단지 사람이 라벨링한 데이터를 "비슷하게 흉내" 내는 수준을 넘어서, 실제 연구에 사용해도 문제없는 대안임이 실증적으로 입증된 것입니다.
향후에는 “코더 3명 고용할까”가 아니라 “GPT-4 하이브리드 방식으로 돌릴까?”가 새로운 실무 기준이 될 수 있습니다.