Article Review

[정치학/서베이LLM] DiGiuseppe & Flynn (2025) LLM으로 자유서술형 답변을 정교하게 분석하는 새로운 방법?

Dr. Julia 2025. 5. 18. 06:22

 

💬 대답만으로는 부족하다? LLM으로 자유서술형 답변을 정교하게 분석하는 새로운 방법!

요즘 설문조사에서 가장 자주 쓰이는 질문 형태는 뭘까요? 단연 **객관식(closed-ended questions)**입니다. 분석이 쉽고, 데이터 정리가 간편하니까요. 하지만 이런 편리함 뒤에는 심각한 단점도 숨겨져 있습니다. 응답자의 깊은 생각이나 불확실성, 그리고 예상 밖의 아이디어는 객관식 질문으로는 담아내기 어렵습니다.

그래서 자유서술형(open-ended) 문항이 다시 주목받고 있습니다. 하지만 문제는 이 자유서술형 응답들을 사람 손으로 전부 읽고 평가하는 데 너무 많은 시간과 비용이 든다는 것! 그런데 최근 **GPT나 LLaMA 같은 대형 언어모델(LLM)**들이 이 문제를 해결할 수 있을 거란 기대가 커지고 있어요.

이번 포스팅에서는 Matthew DiGiuseppe와 Michael Flynn의 2025년 논문인
📄 “Scaling Open-ended Survey Responses Using LLM-Paired Comparisons”
을 바탕으로, 자유응답을 얼마나 정교하게, 얼마나 효율적으로 LLM을 활용해 수치화(scale) 할 수 있는지 그 과정을 소개해볼게요.


📚 문헌 연구: 자유응답과 LLM 분석의 최전선

예전부터 학자들은 자유서술형 응답의 잠재력에 주목해 왔습니다. Lazarsfeld (1944), Converse (1984), Geer (1991) 같은 초기 연구자들은 자유응답이 응답자의 진짜 속마음을 더 잘 보여줄 수 있다고 강조했죠. 하지만 분석이 너무 힘들다는 단점 때문에, 많은 연구자들이 여전히 객관식만 사용하곤 했습니다.

그러나 최근엔 자연어처리(NLP) 기술과 LLM의 발전으로 분위기가 달라졌습니다. Roberts et al. (2014)은 **구조적 토픽 모델(STM)**을 통해 자유응답을 자동으로 분류할 수 있다는 점을 보여줬고, Rathje et al. (2024), Gilardi et al. (2023), Mens and Gallego (2023) 등은 LLM이 사람보다도 더 정확하게 텍스트 감정 분석이나 내용 평가를 할 수 있다는 점을 강조합니다.

그럼에도 불구하고 여전히 LLM 기반 분석은 불확실성 추정이 어렵고, **출력이 고정된 스케일(예: 0~10점)**에 기반해 있어 왜 그 점수가 나왔는지 알기 어렵다는 문제가 있습니다 (Barrie et al., 2024).


🧩 이론적 배경: 왜 ‘쌍대비교(pairwise comparison)’가 필요한가?

이 논문은 기존 방식의 한계를 극복하기 위해 **쌍대비교(pairwise comparison)**라는 접근을 제안합니다.

여기서 핵심 아이디어는 이렇습니다:

  • 두 개의 자유응답을 보여주고, 어떤 것이 더 ‘지식이 풍부한지’를 LLM이 직접 비교하게 한다
  • “첫 번째가 더 낫다 / 두 번째가 더 낫다 / 둘 다 비슷하다”라는 간단한 판단을 반복 수천 번 실시
  • 이 판단 결과들을 이용해 Bradley-Terry(BT) 모델을 활용해 응답자 각각의 ‘잠재적 지식 점수(latent score)’를 추정

이 방식의 장점은 명확합니다 (Carlson & Montgomery, 2017; Narimanzadeh et al., 2023):

  1. 비교는 쉽다: 0~10점 중 몇 점일지 고르는 것보다, 둘 중 하나 고르는 게 더 빠르고 명확하다
  2. 편향 제거: 문법이나 문장 스타일이 점수에 영향을 줘도, 비교만 한다면 큰 영향이 없다
  3. 불확실성 추정 가능: 동일 응답이 반복해서 비교될수록 추정의 신뢰구간이 좁아져 더 정확한 점수 산출 가능

 

🧪 연구 방법: LLM 쌍대비교 + 베이지안 Bradley-Terry 모델

이번 연구의 핵심은, 자유서술형 문항에 대한 응답을 **대형 언어모델(LLM)을 활용한 쌍대비교(pairwise comparisons)**로 정량화하고, 이를 Bradley-Terry 모델로 점수화했다는 점입니다. 그 구체적인 흐름은 다음과 같습니다.

1️⃣ 데이터 수집

연구진은 먼저 Prolific 플랫폼을 활용해 미국의 금리 결정 방식에 관한 자유서술형 문항을 설계했습니다:

“미국 경제에서 금리(즉, 주택이나 자동차 대출의 이자율)가 어떻게 오르고 내리는지, 찾아보지 말고 본인의 말로 2~3문장으로 설명해보세요.”

응답자는 1,402명 이상이며, 응답마다 20개의 무작위 응답과 짝을 지어 **약 3만 건 이상의 쌍대 응답쌍(pairwise pairs)**을 생성했습니다.

2️⃣ LLM에게 비교 작업 요청하기

각 쌍에 대해, 아래와 같은 방식으로 GPT-4o, LLaMA 3.1(405B), Gemma 등 다양한 LLM들에게 프롬프트를 던졌습니다:

“당신은 미국 경제 전문가입니다. 아래 두 응답 중 어느 쪽이 금리에 대해 더 정확하고 지식이 많은 설명인지 판단하세요. 1번이 낫다면 '1', 2번이 낫다면 '2', 비슷하면 '0'을 숫자로만 입력하세요.”

LLM은 각 비교쌍에 대해 답변을 반환하며, 이 데이터를 쌓아 전체적인 판단 결과를 구성합니다.

 

3️⃣ Bradley-Terry 모델로 점수 추정: 비교를 수치로 바꾸는 수학적 마법

앞 단계에서 LLM들이 수천 개의 응답쌍을 비교하면서 "어느 응답이 더 낫다", 혹은 "비슷하다"는 판단을 내렸죠? 이제 이 판단 결과들을 바탕으로, 각 응답자에게 **'지식 수준 점수'**를 부여하는 과정이 시작됩니다. 여기서 사용되는 수학적 도구가 바로 Bradley-Terry 모델니다.

🔧 Bradley-Terry 모델이란?

Bradley-Terry(BT) 모델은 원래 스포츠 경기 같은 승패 기록을 기반으로 선수들의 실력을 비교하려고 고안된 통계 모델입니다 (Bradley & Terry, 1952). 하지만 이 원리를 LLM이 수행한 비교 판단에도 똑같이 적용할 수 있어요.

핵심 아이디어는 다음과 같습니다:

  • 어떤 응답자 A가 응답자 B보다 더 "지식이 풍부하다"고 판단되었다면, A가 B를 이긴 것처럼 간주
  • '누가 누구를 이겼는지'에 대한 수많은 정보를 토대로, 응답자 각각의 '지식 능력치'를 추정

📐 수식으로 보면 이렇게 작동해요:

모델은 다음의 로짓(logit) 확률로 구성됩니다:

Pr(A가 B를 이길 확률) = 로짓(δ_A - δ_B)

여기서 δ_A와 δ_B는 각각 응답자 A와 B의 **잠재 지식 점수(latent knowledge score)**입니다. 즉, 이 점수가 높을수록 더 자주 상대를 이길 가능성이 높아집니다.

🧮 베이지안 접근으로 추정

이번 연구에서는 최대우도법(MLE) 대신 베이지안(Bayesian) 방식으로 BT 모델을 추정합니다. 왜일까요?

  1. 모든 비교쌍이 없어도 괜찮아요
    MLE 방식은 가능한 모든 비교쌍이 존재해야 수렴이 잘 되는데, 실제 데이터에서는 현실적으로 그게 어렵죠. 베이지안 방식은 불완전한 비교만으로도 잘 작동합니다.
  2. 불확실성까지 함께 추정해요
    베이지안 모델은 단일 점수만 주는 게 아니라, '신뢰구간(credible interval)', 즉 점수가 이 정도일 가능성이 있다는 범위까지 제공합니다. 이는 후속 분석에 사용할 때 큰 장점이 됩니다.
  3. Stan + brms 패키지로 구현도 쉬워요
    연구팀은 R의 brms 패키지를 활용해 이 BT 모델을 구현합니다. 이 패키지는 내부적으로 Stan을 기반으로 하며, 복잡한 맞춤형 패키지 없이도 다중 멤버십 로짓 모델(multimembership logistic model) 형태로 손쉽게 실행할 수 있습니다.

🗂️ 모델 설계 구조 요약

  • 응답자 각각이 다른 여러 사람과 쌍으로 비교된 결과들을 데이터로 구성
  • 데이터에는 **i번 응답자, j번 응답자, i가 이겼는지 여부(1 또는 0)**의 정보가 포함
  • 이 데이터를 바탕으로 각 응답자에 대한 **개별적인 '랜덤 효과(intercept)'**를 추정
  • 이 랜덤 효과가 곧 지식 점수의 기반이 됩니다

🔁 '비겼다'는 응답은 어떻게 처리했을까?

모델을 추정하기 위해선 1(승)과 0(패)의 이진 값이 필요하기 때문에, LLM이 ‘둘이 비슷하다(0)’고 한 쌍에 대해서는 무작위로 승패를 할당했습니다. 혹은 더 정교하게 하려면 Bradley-Terry-Davidson 모델이라는, 동점도 고려할 수 있는 확장 모델을 사용할 수 있습니다 (Davidson, 1970).

 


📊 주요 결과 요약: LLM은 전문가 수준?

이제 이 새로운 분석 프레임워크가 실제로 얼마나 잘 작동하는지를 검증한 결과를 살펴봅시다.

🔍 1. LLM vs 인간 전문가 비교

연구팀은 LLM이 제대로 판단하고 있는지를 검증하기 위해, 초기 설문 응답자 중 '전문가 수준'의 응답을 한 20명을 다시 불러와 직접 쌍대비교 작업을 시켰습니다. 그리고 동일한 비교쌍을 LLM들에게도 맡긴 후, **F1 점수(F1 Score)**를 통해 양측 결과의 일치도를 비교했습니다.

그 결과는 놀라웠습니다:

  • GPT-4o, LLaMA 3.1(405B) 모델은 F1 점수 0.8 이상으로 사람 전문가들과 거의 유사한 판단을 내렸습니다.
  • 중소형 모델(Gemma 2B 등)은 판단 유보(‘0’으로 처리된 tie)의 비율이 30% 이상으로 많았고, 판단 일관성도 낮았습니다.

즉, 성능 좋은 LLM은 사람 전문가 못지않은 정밀한 판단을 내릴 수 있다는 점이 입증된 셈입니다.

📈 2. LLM 간 일관성 분석

여러 LLM이 동일한 응답쌍에 대해 내린 판단이 얼마나 일치하는지를 확인한 결과:

  • GPT-4o와 LLaMA 405B 모델 간 상관계수는 0.95 이상
  • 중간급 모델 간에는 0.87~0.92 수준의 높은 상관성을 보임
  • 하지만 가장 작은 모델(Gemma 2B)은 0.6~0.7 수준으로 일관성이 떨어졌습니다.

즉, 모델 크기가 어느 수준 이상이 되면 쌍대비교 기반 추정 결과가 매우 일관적이고 신뢰할 수 있음을 보여줍니다.

✅ 3. 객관식 응답과 비교: 타당성 확보

같은 설문에서 응답자들에게 연준(Federal Reserve)에 대한 객관식 지식 문항도 함께 물었는데, 이와 비교한 결과:

  • 연준을 "정확히 알고 있다"고 자가보고한 사람들의 BT 점수가 높았고,
  • 연준 의장 임명자, 금리 결정기관 등을 맞힌 사람들도 BT 점수가 높았습니다.

즉, 쌍대비교 + BT 모델로 도출한 ‘잠재 지식 점수’는 실제 객관식 지식 점수와도 잘 맞아떨어지는 유효한 측정 도구로 확인된 셈입니다.


요약하자면, 연구진이 제안한 쌍대비교 기반 LLM 분석 프레임워크는 다음과 같은 면에서 매우 효과적인 방법입니다:

  1. 고정된 숫자 점수보다 더 세밀하고 정교한 구분 가능
  2. LLM 간 일관성 확보 가능
  3. 사람 전문가와 비교해도 손색없는 정확도
  4. 베이지안 방식으로 불확실성까지 고려 가능

특히 GPT-4o나 LLaMA 405B와 같은 대형 LLM을 활용하면, 고비용의 인간 코더 없이도 전문가 수준의 자유응답 정량화가 가능하다는 점에서 연구자들에게 매우 실용적인 방법론이라고 할 수 있습니다.

 


🧪 확장 실험: 불확실성(uncertainty)도 잡을 수 있을까?

또 다른 실험에서는, ‘연방정부가 채무불이행(default)할 경우 어떤 일이 벌어질 것 같은지’에 대해 응답자들이 작성한 자유응답을 가지고 ‘불확실성’ 정도를 추정하는 실험도 수행합니다.

하지만 여기서는 LLM 간 일관성이 확실히 떨어졌고, BT 점수 간 상관계수도 0.6 이하로 감소했습니다. 즉, 개념 자체가 모호하거나 주관적일수록 쌍대비교의 성능도 낮아질 수 있다는 점을 확인했습니다.


🔍 마무리: 이 방법의 의의와 한계

이 논문은 명확한 기여를 합니다:

  • 자유응답 데이터를 정교하게 수치화하는 새로운 방법을 제안
  • LLM과 베이지안 모델을 결합해 신뢰구간까지 포함된 점수 제공
  • 사람과 거의 일치하는 결과를 높은 수준의 LLM이 제공 가능함을 입증

하지만 몇 가지 주의점도 함께 강조합니다:

  • 프롬프트 설계가 중요하며, 도메인 지식이 요구되는 경우 반드시 인간 기준점과의 비교 검증이 필요
  • LLM 성능에 따라 결과 품질이 확연히 달라질 수 있음
  • 특히 자유응답이 애매하거나 추상적일 경우 LLM 간 불일치 가능성 있음
  • 요즘 사람들도 답변을 GPT에게 시켜서 붙여 넣는 경우가 있어 ‘응답자가 직접 쓴 것인지’ 감별이 중요

📝 정리하며

이 연구는 단순히 "LLM을 활용한 자유응답 분석"이 아니라, **쌍대비교(pairwise comparison)**라는 간단하지만 강력한 접근을 LLM에 적용한 데 의의가 있습니다. 특히 지식, 태도, 감정처럼 수치화하기 어려운 주관적 개념들을 정교하게 다룰 수 있는 가능성을 열었다는 점에서 매우 유의미합니다.

설문 연구자라면? LLM을 쌍대비교 프레임워크에 얹어보는 실험을 꼭 고려해볼 만한 시점입니다.