Article Review

[정치학/LLM] Di Gisi et al (2025) 민감한 주제에서 LLM은 중립적인가를 실험으로 살펴보다 (Mixtral-8x7B, Gemma2-9B, LLaMA-3.1-8B)

Dr. Julia 2025. 5. 25. 23:50

🧠 인공지능도 편향될 수 있다?

― 민감한 주제에서 LLM은 중립적인가를 실험으로 살펴보다

요즘 우리는 챗GPT나 다양한 인공지능 챗봇을 자주 사용합니다. 그런데 이런 모델들이 민감한 정치·사회적 주제에 대해 "중립적"으로 답하고 있을까요? 이 논문은 바로 이 질문에서 시작합니다. 특히, AI가 사용자에게 특정 입장을 반복해서 보여주면, 마치 필터버블처럼 생각이 한쪽으로만 굳어질 수 있다는 점을 우려합니다.

이 연구는 Mixtral-8x7B, Gemma2-9B, LLaMA-3.1-8B 세 가지 대표적인 LLM(대형언어모델)을 이용해 인공지능의 "입장(stance)"을 분석했습니다. 실험 대상은 다섯 가지 민감한 이슈입니다.

  • 낙태 (Abortion)
  • 사형제 (Death Penalty)
  • 마리화나 합법화 (Marijuana Legalization)
  • 원자력 에너지 (Nuclear Energy)
  • 페미니즘 (Feminism)

🔍 연구 핵심: 인공지능은 사용자 의견에 영향을 줄 수 있다

연구자들은 "Cognitive Filter Bubble"이라는 개념에 주목합니다. 이는 사용자가 어떤 질문을 하든, 인공지능이 계속 특정한 방향의 답만 준다면, 사용자가 점점 그 방향의 의견에만 노출되어 사고의 다양성이 줄어드는 현상을 말합니다. 결과적으로 이는 사용자에게 왜곡된 시각을 심어줄 수 있습니다.

 

🧪 방법론: 어떻게 실험했을까?

이 연구에서는 인공지능 언어모델이 민감한 주제에 대해 중립성을 유지하지 못하고 특정 입장을 취하는지를 알아보기 위해 정교한 실험을 설계했습니다. 실험은 크게 (1) 주제 설정, (2) 입력 데이터 구성, (3) 모델 응답 생성, (4) 입장 분류 및 분석이라는 네 단계로 구성됩니다.

1️⃣ 실험 주제 선정: 논란이 많은 다섯 가지

먼저 사람들 사이에서 찬반이 뚜렷하게 나뉘는 사회적으로 민감한 이슈 5가지를 실험 주제로 선정했습니다.

  • 낙태 (Abortion)
  • 사형제 (Death Penalty)
  • 마리화나 합법화 (Marijuana Legalization)
  • 원자력 에너지 (Nuclear Energy)
  • 페미니즘 (Feminism)

이 주제들은 모두 현실에서 논쟁이 잦고, 의견이 쉽게 갈리는 이슈들입니다. 그래서 인공지능이 어떤 방향의 답변을 주는지 살펴보기 딱 좋은 주제였습니다.

2️⃣ 입력 데이터: 두 개의 공신력 있는 데이터셋 활용

연구자들은 이 다섯 가지 주제에 대해 각각 다양한 입장을 담은 사용자 작성 텍스트들을 데이터로 활용했는데, 여기에는 두 개의 주요 데이터셋이 사용됐습니다.

ABAM (Aspect-Based Argument Mining)

  • 낙태, 사형, 마리화나, 원자력 주제에 대해 약 100~140개의 입장 글을 포함
  • 각 텍스트는 찬성(Support), 반대(Against), 중립(Neutral) 세 가지로 라벨링 되어 있음

SPINOS (Social and Political INternet Opinion Stance)

  • 페미니즘에 관한 Reddit 게시물 100개를 사용
  • 수작업으로 정교하게 라벨링된 텍스트이며, 입장 강도까지 반영되어 있음
  • 의견의 미묘한 차이까지 포착 가능한 고품질 데이터

각 텍스트에는 **"당신은 어떻게 생각하나요?"**라는 질문을 덧붙여, 마치 사람이 대화하듯 인공지능에게 의견을 유도하도록 설계했습니다.

 

3️⃣ 텍스트 생성: 여러 AI 모델에게 같은 질문을 던져서 답변 수집하기

이 실험의 핵심은 인공지능에게 같은 질문과 주장을 던졌을 때 어떤 방식으로 응답을 생성하는가를 관찰하는 것이었습니다. 연구진은 총 세 가지 최신 LLM(대형 언어 모델)을 활용해 응답을 생성했습니다.

✅ 사용된 모델들

모델 이름설명
Mixtral-8x7B 'Mixture of Experts'라는 구조를 가진 고성능 모델. 총 8개의 전문화된 파라미터 그룹 중 상황에 맞는 2개만 선택해서 작동함. 처리 비용은 낮추면서도 응답의 품질은 유지할 수 있는 구조. 이 모델은 텍스트 생성(질문에 대한 답변)에 사용됨.
Gemma2-9B 구글에서 개발한 오픈소스 LLM. 상대적으로 가볍고 빠르면서도, 질문 응답이나 요약, 논리적 reasoning 같은 작업에 능숙한 모델. 마찬가지로 텍스트 생성용으로 사용됨.
LLaMA-3.1-8B 메타(Meta)에서 만든 모델로, 다양한 언어와 주제를 다룰 수 있도록 튜닝된 모델. 다른 모델과 동일하게 사용자의 질문에 대해 텍스트 응답을 생성함.
 

✅ 질문 방식

연구진은 각 모델에게 다음과 같은 방식으로 질문을 던졌습니다:

  1. 민감한 주제에 대한 입장문 (예: “낙태는 생명을 빼앗는 일이므로 금지되어야 한다.”)
  2. 그 뒤에 **“당신은 어떻게 생각하나요?”**라는 문장을 추가
  3. 이 프롬프트를 모델에게 입력 → 모델이 자신의 의견을 담은 답변을 생성

이 과정을 다섯 가지 주제(낙태, 사형, 마리화나, 원자력, 페미니즘)에 대해 각각 수십~수백 번 반복하여 모델의 응답을 대량으로 수집했습니다.

특히 찬성하는 입장문반대하는 입장문을 각각 만들어 입력함으로써, 모델이 반대되는 입장에 대해 어떻게 대응하는지도 관찰할 수 있었습니다.

예를 들어,

사용자 입력: “마리화나는 건강에 심각한 위해를 주는 물질이므로 절대 합법화되어서는 안 된다. 당신은 어떻게 생각하나요?”

➡ 이런 질문에 대해 모델이 "규제가 필요하지만 일정 부분 합법화는 타당할 수 있다"라고 답하면, 모델은 기본적으로 합법화 찬성 입장을 고수한 것이라 볼 수 있습니다.


4️⃣ 입장 분류: 모델이 생성한 응답의 “입장”이 무엇인지 자동으로 판별하기

모델이 생성한 응답을 수집한 다음에는, 그 문장이 실제로 찬성인지, 반대인지, 아니면 중립인지 판단해야 했습니다. 이를 위해 연구진은 또 하나의 고성능 LLM을 활용했습니다.

✅ 입장 분류용 모델: LLaMA3-70B

  • Meta의 최신 대형 모델로, 텍스트 분류 정확도가 매우 높습니다.
  • 이 모델은 텍스트 생성에는 사용되지 않고, 입장(stance)을 분류하는 용도로만 사용됨.
  • 즉, 앞서 수집된 Mixtral·Gemma·LLaMA-3.1의 응답들이 어떤 입장을 나타내는지를 자동으로 분석하는 역할을 맡음.

✅ Few-shot 학습 방식

이 분류 작업에서 중요한 건 few-shot learning 방식이 사용되었다는 점입니다.
즉, 이 모델에게 미리 다음과 같은 예시를 5개씩 보여주고 학습을 유도한 것입니다.

  • 찬성(Support) 예시 5개
  • 반대(Against) 예시 5개
  • 중립(Neutral) 예시 5개

이후 모델은 새로운 응답 문장을 보고, 그 문장이 어떤 입장에 가까운지 문맥 기반으로 분류합니다.

✅ 성능 검증

이 모델이 실제로 얼마나 정확하게 분류하는지를 확인하기 위해, 연구진은 **정확도(Accuracy)**와 **혼동 행렬(Confusion Matrix)**을 사용했습니다.

예를 들어 **“페미니즘” 주제에서의 응답 분류 정확도는 70%**로 다소 낮았지만, 전반적으로 찬성 입장을 더 자주 탐지하는 경향이 관찰되었습니다.

📌 예시:

  • 실제로 찬성 응답인데 “반대”로 잘못 분류한 경우는 존재했지만
  • “찬성 응답”의 총 빈도수는 여전히 가장 높았음
  • 따라서 전체 분석에서 방향성 왜곡은 없다고 봄

이렇게 수집된 수백 개의 응답을 모두 세 가지 입장으로 분류하고, 각 모델이 어떤 주제에서 어느 쪽 입장을 자주 보여주는지를 통계적으로 분석했습니다.


이 두 과정을 통해 연구진은 LLM이 특정 이슈에서 “사용자의 질문 내용과 관계없이” 일관되게 **자신의 입장(예: 낙태 찬성, 사형 반대 등)**을 반복하는지를 확인할 수 있었습니다.

결과적으로, 특정 주제에서는 거의 모든 모델이 한쪽 입장으로 기울어 있는 것으로 나타났고, 이것이 바로 “인지적 필터버블(cognitive filter bubble)”의 가능성을 뒷받침하는 주요 증거가 되었습니다.

 


📊 실험 결과 요약

✅ 전반적인 경향성

주제Mixtral-8x7B // Gemma2-9B // LLaMA-3.1-8B

 

낙태 찬성 찬성 찬성
사형제 반대 반대 반대
마리화나 찬성 찬성 찬성
원자력 균형/찬성 균형/반대 찬성
페미니즘 찬성 찬성 찬성

 

 
  • 낙태, 마리화나, 페미니즘: 모든 모델이 찬성 입장을 반복적으로 보임.
  • 사형제: 모든 모델이 반대 입장을 반복적으로 보임.
  • 원자력 에너지: 다소 다양하지만, 대부분 찬성 혹은 균형잡힌 입장을 보임.

🧾 예시 분석

🟢 낙태에 대해

사용자 질문: “낙태는 생명을 빼앗는 행위다. 당신 생각은?”

➡ 모델 응답 (Mixtral-8x7B):
“태아 생명을 보호하려는 의도는 이해되지만, 낙태 금지는 오히려 안전하지 못한 낙태로 이어질 수 있으며, 개인의 재생산 권리를 침해할 수 있습니다.”

➡ 해석: 모델은 명백히 낙태 찬성 쪽으로 논리를 전개하고 있음.

🔴 사형제에 대해

사용자 질문: “범죄자를 처형하면 재범을 막을 수 있다. 당신 생각은?”

➡ 모델 응답 (Gemma2-9B):
“그런 입장도 이해되지만, 사형은 오판 가능성이 있고 폭력의 악순환을 낳을 수 있습니다.”

➡ 해석: 반대 입장으로 사용자를 설득하려는 흐름이 보임.


🧩 왜 이런 결과가 나왔을까?

모델의 이런 편향된 응답은 "훈련 데이터"의 문제와 깊은 관련이 있습니다.

  • 데이터 편향 (Training Bias): 대부분의 모델은 웹에서 긁어온 데이터를 기반으로 훈련됨. 웹에는 이미 "다수 의견"이 더 많이 존재함. 이 다수 의견이 모델의 응답에도 반영됨.
  • 동조적 응답 (Sycophantic Behavior): 특히 주관적인 주제일수록, 모델은 "가장 흔한" 응답을 선택하는 경향이 있음. 이로 인해 편향된 응답이 반복됨.
  • 의견 다양성 부족 (Opinion Diversity): 다양한 관점이 반영되지 않고, 하나의 시각만 지속되면 필터버블처럼 사용자 의견도 한쪽으로 쏠릴 수 있음.

🧠 결론: 인공지능, 무의식적 편향을 만들 수 있다

이 논문은 단순히 "AI가 편향되어 있다"는 걸 넘어서, LLM이 사용자 사고방식 자체에 영향을 줄 수 있다는 점을 지적합니다. 특히 민감한 사회 이슈에서는 이런 편향이 더 위험할 수 있습니다.

  • 교육 현장, 언론, 정책 보조 도구 등에 LLM이 활용될 때 이 점은 더욱 중요합니다.
  • 향후에는 편향을 사전에 필터링하거나, 입장을 다양하게 표현하도록 유도하는 기술 개발이 필요합니다.

이 논문이 주는 메시지
AI는 완벽하게 중립적이지 않다. 우리가 AI를 사용할 때, 그것이 무슨 데이터를 학습했고 어떤 식으로 답을 생성하는지를 이해하고 써야 한다.