인공지능이 작성한 뉴스, 인구통계 정보가 영향을 미칠까?
요즘 인공지능(Large Language Models, LLMs)이 생성하는 텍스트가 점점 인간의 글과 비슷해지고 있어요. 그런데, 만약 우리가 프롬프트(입력 문구)에 특정한 인구통계 정보(나이, 성별, 국적, 소득 수준 등)를 포함하면, 생성된 뉴스 기사에 어떤 영향을 미칠까요? 이 연구에서는 그 궁금증을 해결하기 위해 실험을 진행했어요.
연구 개요
연구진은 LLM을 사용해 제목과 요약만 제공한 상태에서 뉴스 기사를 생성하도록 했어요. 이때, 프롬프트에 인구통계 정보를 포함했지만, 모델이 해당 정보를 직접적으로 언급하지 않도록 지시했어요. 예를 들어, "이 기사는 30대 남성이 작성한 것처럼 생성하세요"라고 입력하지만, 결과물에는 ‘30대 남성’이라는 표현이 직접 등장하지 않도록 한 거죠.
두 가지 LLM 모델인 LLaMa 3 8B와 Mistral v0.2 7B를 사용하여 총 28,080개의 뉴스 기사를 생성했고, 이를 분석했어요. 연구진은 문장의 길이, 어휘 다양성(type-token ratio), 문법 구조 등을 측정하여 인구통계 정보가 실제로 뉴스의 언어적 특성에 영향을 미치는지 살펴봤어요.
연구 방법 (구체적으로 살펴보기)
1. 사용한 AI 모델
- LLaMa 3 8B: 8B(80억 개) 매개변수를 가진 대형 모델로, 15조 개의 다국어 텍스트를 학습했어요.
- Mistral v0.2 7B: 학습 데이터는 공개되지 않았지만, 강력한 성능을 가진 또 다른 LLM이에요.
2. 뉴스 기사 수집
- 뉴욕타임스(New York Times) API를 활용해 실제 뉴스 기사 제목과 요약을 가져왔어요.
- 2024년 1월부터 4월까지 출판된 기사만 사용해, 모델이 학습 데이터로 본 적 없는 내용을 생성하도록 했어요.
- 기사들은 다양한 분야(정치, 경제, 과학, 예술 등)에서 고르게 선택했어요.
3. 프롬프트 생성
연구진은 아래와 같은 프롬프트 구조를 사용했어요:
제목: "{}"
요약: "{}"
배경 정보:
- 연령대: {}
- 성별: {}
- 국적: {}
- 정치적 성향: {}
- 사회경제적 지위: {}
- 교육 수준: {}
지시사항:
- 제목과 요약을 기반으로 500단어짜리 기사 작성
- 본문만 작성하고 제목과 요약은 포함하지 말 것
- 프롬프트의 배경 정보를 직접 언급하지 말 것
4. 인구통계 정보 조합
- 연구진은 12가지 인구통계 요소(연령, 성별, 국적, 경제 수준 등)를 결합해 총 28,080개의 프롬프트를 만들었어요.
- 예를 들어, "40대 여성, 중산층, 대학 학위 보유"라는 정보를 포함한 프롬프트를 입력하면, 모델이 해당 배경을 고려해 기사를 작성하도록 했어요.
5. 텍스트 분석 방법
생성된 기사에서 다음과 같은 언어적 특징을 측정했어요:
- 문장 길이: 문장이 길어질수록 문장이 더 복잡해질 가능성이 커요.
- 어휘 다양성(Type-Token Ratio, TTR): 사용된 단어의 다양성을 측정하는 지표예요.
- 문법적 구조(구문 분석): 문장에서 사용된 구문 구조의 복잡성을 분석했어요.
- 의존 구문(Dependency Parsing): 단어 간 관계의 길이와 방향을 측정했어요.
- 최적 문법 점수(Ω Optimality Score): 문장이 얼마나 효율적인 구조를 갖는지 평가했어요.
6. 통계 분석
- ANOVA(분산분석)를 사용하여 인구통계 요소가 문장 구조에 미치는 영향을 분석했어요.
- OLS(Ordinary Least Squares) 회귀 분석을 사용하여 언어적 특성과 인구통계 요소 간 관계를 모델링했어요.
연구 결과
통계 분석 결과, 일부 인구통계 요소가 문장의 특정 지표에 대해 통계적으로 유의미한 차이를 보였어요. 그러나, 결정계수(R²) 값이 매우 낮았어요(최대 0.017). 이는 차이가 있긴 하지만 실질적인 영향력은 미미하다는 의미예요.
즉, 인구통계 정보를 포함한 프롬프트가 기사 문장의 길이나 어휘 다양성 등에 영향을 주기는 하지만, 그 차이가 의미 있는 수준은 아니라는 거죠.
결론
연구진은 인구통계 정보를 포함한 프롬프트가 LLM이 생성하는 뉴스 기사 스타일에 실질적인 영향을 미치지 않는다고 결론지었어요.
가능한 이유는?
- 뉴스 기사 자체의 주제 차이: 모델이 학습한 뉴스 기사들은 같은 주제에서도 다양한 스타일을 갖고 있어요. 이는 인구통계 요소보다 기사 자체의 주제가 더 큰 영향을 미쳤을 가능성이 있어요.
- 중립적인 문체: AI 모델이 학습한 뉴스 데이터가 일반적으로 중립적이기 때문에, 특정 인구통계 정보를 반영하려는 경향이 덜할 수 있어요.
마무리
이번 연구는 AI가 생성하는 뉴스 텍스트에서 인구통계적 요소가 얼마나 영향을 미치는지를 분석한 흥미로운 실험이에요. AI가 특정한 집단을 반영하는 방식에 대한 논의는 계속될 것이고, 앞으로는 더 정교한 방법으로 LLM의 편향성을 연구하는 것이 중요할 것 같아요.
'Article Review' 카테고리의 다른 글
[Survey 정치학] Kiesel and Amlani (2025) 정서적 양극화를 포착하는 새로운 서베이 문항 방법 (0) | 2025.02.04 |
---|---|
[LLM 미디어] 팔레스타인 보도에서를 BBC vs. CNN vs. AJ가 다르게 할까? (0) | 2025.02.01 |
[LLM 정치학] Mens and Gallego (2025) 질문 및 평균화를 통한 LLM로 정치 텍스트 위치 지정하는 법 (0) | 2025.01.29 |
[논문리뷰] Sermpezis et al (2025) 정치담론을 다중 annotated한 데이터셋 소개 (0) | 2025.01.22 |
[논문리뷰] Amini (2025) 전이 학습으로 서베이데이터 학습하기 (0) | 2025.01.22 |