카테고리 없음

[LLM/중국] Cook et al (2025) 중국어 뉴스 프레이밍 데이터셋

Dr. Julia 2025. 3. 25. 04:30

이 논문은 중국어 뉴스에서 프레이밍(Framing)을 분석하기 위한 데이터셋을 구축하고, 이를 활용한 실험 결과를 제시하는 연구입니다. 쉽게 말해, 뉴스 기사가 특정한 방식으로 사건을 어떻게 구성하고 전달하는지를 연구하는 것입니다. 특히, 기존의 다국어 뉴스 프레이밍 데이터셋에는 중국어 데이터가 포함되지 않았다는 점을 문제로 삼고, 중국어 뉴스 프레이밍을 탐색할 수 있는 첫 번째 데이터셋을 구축한 것이 핵심 기여입니다.

이 블로그 포스팅에서는 연구의 주요 개념과 방법론을 중심으로 쉽게 풀어서 설명하겠습니다.


뉴스 프레이밍이란 무엇인가?

뉴스 프레이밍은 언론이 특정 이슈를 강조하거나 축소하여 독자의 인식을 형성하는 방법입니다. 같은 사건이라도 어떤 단어를 사용하느냐, 어떤 측면을 강조하느냐에 따라 독자가 받아들이는 방식이 달라질 수 있습니다. 예를 들어, "정부가 공공의 이익을 위해 법을 제정했다"라고 쓰면 긍정적인 뉘앙스를 주지만, "정부가 국민의 자유를 제한하는 법을 통과시켰다"라고 쓰면 부정적인 인상을 줄 수 있습니다.

프레이밍은 정치적, 사회적 이슈를 다루는 뉴스에서 특히 중요한데, 이 연구는 기존의 영어, 프랑스어, 독일어 등의 뉴스 프레이밍 연구에서 중국어 뉴스가 배제되어 있다는 점을 문제 삼았습니다. 중국어는 단어 경계가 명확하지 않고, 의미가 복잡하게 연결되는 언어적 특성이 있기 때문에 기존의 다국어 모델로는 적절히 분석하기 어렵습니다.


연구 목표

연구팀은 다음과 같은 목표를 세웠습니다.

  1. 중국어 뉴스 프레이밍 데이터셋 구축
    • 다양한 정치적 성향과 국가(중국, 미국, 영국 등)의 중국어 뉴스 기사를 수집하고, 이를 14개의 프레임(예: 경제, 정치, 건강, 공공 여론 등)으로 분류했습니다.
  2. 기존 다국어 뉴스 프레이밍 데이터셋(SemEval 2023 Task 3)과 통합 가능성 평가
    • 기존 데이터셋과 중국어 데이터를 결합했을 때 성능이 어떻게 변화하는지를 실험했습니다.
  3. 기계학습 모델 성능 비교
    • 기존 다국어 모델(XLM-RoBERTa-Base)을 중국어 뉴스 프레이밍 데이터셋으로 학습했을 때의 성능을 평가했습니다.
    • ChatGPT-4o 같은 대형 언어 모델을 활용해 제로샷 학습(Zero-shot learning) 방식의 성능도 비교했습니다.

데이터 수집 및 구축 과정

연구팀은 다양한 정치적 스펙트럼을 반영하기 위해 총 13개 뉴스 사이트에서 30만 개의 기사를 수집했습니다. 대표적인 뉴스 소스로는 다음과 같습니다.

  • 중국 기반 매체: 신화통신, 차이나 데일리, 더 페이퍼
  • 서구 기반 중국어 매체: BBC Chinese, 뉴욕타임스 중국어판, 자유아시아방송(RFA), 보이스 오브 아메리카(VOA), 도이체 벨레(DW)

데이터 수집은 2020년부터 2024년까지의 기사로 한정했으며, 대표적인 이슈는 코로나19 백신, 이스라엘-팔레스타인 분쟁, 러시아-우크라이나 전쟁, 미국 대선 등이 포함되었습니다.

프레이밍 카테고리 설정

연구팀은 기존 연구에서 사용된 14개 프레이밍 카테고리를 따랐습니다. 여기에는 다음과 같은 프레임이 포함됩니다.

  1. 경제(Economic)
  2. 자원과 역량(Capacity and Resources)
  3. 도덕성(Morality)
  4. 공정성과 평등(Fairness and Equality)
  5. 법과 헌법(Legality and Jurisprudence)
  6. 정책 평가(Policy Prescription and Evaluation)
  7. 범죄와 처벌(Crime and Punishment)
  8. 안보(Security and Defense)
  9. 건강과 안전(Health and Safety)
  10. 삶의 질(Quality of Life)
  11. 문화 정체성(Cultural Identity)
  12. 공공 여론(Public Opinion)
  13. 정치(Political)
  14. 외교 및 국제 평판(External Regulation and Reputation)

기사의 내용을 보고, 어떤 프레임이 사용되었는지를 분류하는 것이 연구의 핵심 작업이었습니다.

 

데이터 주석(Annotation) 과정: 사람의 손길로 뉴스 프레이밍을 분류하는 과정

뉴스 프레이밍 분석에서 가장 중요한 단계 중 하나는 **데이터 주석(Annotation)**입니다. 단순히 뉴스를 모으는 것만으로는 기계학습 모델이 학습할 수 없습니다. 모델이 "이 기사는 경제 프레임을 사용했다" 또는 "이 기사는 범죄와 처벌 프레임을 강조했다"라고 판단할 수 있으려면 사람이 직접 기사를 읽고, 어떤 프레임이 적용되었는지 표시하는 과정이 필요합니다.

이 연구에서는 중국어 원어민 주석자 6명을 고용하여 뉴스 기사 353개를 프레임별로 분류하는 작업을 수행했습니다. 연구팀은 주석자들이 신뢰할 수 있는 방식으로 작업할 수 있도록 세심한 절차를 거쳤습니다.


① 주석자(Annotators) 선정과 훈련

연구팀은 영국 셰필드 대학교 소속 중국어 원어민 학부 및 대학원생 6명을 주석자로 고용했습니다.
이들은 시간당 **£17(약 3만원)**을 받으며, 연구의 중요한 일부를 담당하게 되었습니다.

하지만 단순히 "이 뉴스 기사를 보고 프레임을 골라주세요"라고 하면 주석자들마다 다른 기준을 적용할 수 있습니다.
예를 들어, 같은 기사라도 A 주석자는 ‘공정성과 평등(Fairness and Equality)’ 프레임을 적용했다고 판단할 수 있지만,
B 주석자는 ‘정책 평가(Policy Prescription and Evaluation)’ 프레임이 더 적절하다고 생각할 수도 있습니다.

따라서 연구팀은 2시간 동안 집중 훈련을 진행했습니다. 훈련 과정은 다음과 같습니다.

  1. 뉴스 프레이밍이란 무엇인지 개념을 익힌다.
  2. 14가지 프레임의 정의를 숙지한다. (예: ‘건강과 안전(Health and Safety)’ 프레임은 질병 예방, 의료 정책 등을 강조하는 경우에 해당)
  3. 실제 뉴스를 20개 샘플로 연습하여 주석을 해본다.
  4. 전문가가 미리 주석한 '정답'과 비교해본다.
  5. 틀린 부분이 있으면 전문가가 설명해주며 피드백을 제공한다.

이렇게 훈련을 받은 후, 본격적으로 주석 작업이 시작되었습니다.


② 이중 주석(Double Annotation) 방식: 같은 기사를 두 사람이 검토

데이터의 질을 보장하기 위해 연구팀은 모든 기사를 두 명의 주석자가 독립적으로 검토하도록 했습니다.
이를 **"이중 주석(Double Annotation)"**이라고 합니다.

즉, 하나의 기사는 A와 B 두 사람이 각자 프레임을 분류한 후 비교하는 방식으로 진행되었습니다.

일치하면 그대로 반영 → 예를 들어 A와 B가 모두 '경제(Economic)' 프레임을 선택했다면 이 주석은 확정됩니다.
불일치하면 전문가가 판단 → 만약 A는 ‘공공 여론(Public Opinion)’, B는 ‘정치(Political)’ 프레임을 선택했다면? 연구팀의 전문가가 최종 판단을 내립니다.

이 과정 덕분에 주석 오류를 최소화할 수 있었습니다.


③ 주석자 신뢰도 평가: 누구의 판단이 가장 일관적일까?

6명의 주석자가 있다고 해서 모두 똑같이 신뢰할 수 있는 것은 아닙니다.
어떤 주석자는 일관된 판단을 내리지만, 어떤 주석자는 같은 기사에서도 판단이 오락가락할 수도 있습니다.

연구팀은 이를 평가하기 위해 Krippendorff’s Alpha(크리펜도르프 알파)라는 신뢰도 측정 방법을 사용했습니다.
이 값이 높을수록 주석자의 일관성이 뛰어난 것이고, 낮을수록 신뢰하기 어려운 주석자라는 뜻입니다.

그 결과, 한 명의 주석자는 신뢰도가 너무 낮아 데이터를 제외했습니다.
그 대신, 가장 신뢰도가 높은 주석자가 해당 데이터를 다시 주석했습니다.


기계학습 모델 실험: AI는 얼마나 정확하게 프레임을 감지할 수 있을까?

이제 이렇게 정리된 데이터를 가지고 AI 모델을 학습시켜야 합니다.
연구팀은 여러 가지 실험을 통해 AI가 뉴스 프레이밍을 얼마나 잘 감지할 수 있는지를 평가했습니다.

① 비교 대상 모델

연구팀은 두 가지 방식으로 성능을 테스트했습니다.

1️⃣ XLM-RoBERTa-Base 모델

  • Facebook AI가 만든 다국어 BERT 기반 모델
  • 기존에 다양한 언어에서 학습되었으며, 뉴스 분석에서도 많이 사용됨

2️⃣ GPT-4o (제로샷 학습)

  • OpenAI의 최신 AI 모델
  • 별도의 훈련 없이 바로 프레임을 예측하도록 테스트 (Zero-shot Learning)

② 실험 과정

1단계: 데이터셋을 3가지로 구분하여 실험

  1. 기존의 SemEval 2023 데이터셋만 학습
  2. 이번 연구에서 구축한 ‘중국어 뉴스 프레이밍 데이터셋’만 학습
  3. SemEval 데이터에 중국어 뉴스 프레이밍 데이터를 추가해 학습

2단계: 모델 훈련 및 평가

  • 모델은 100번(100 epoch) 반복 학습됨
  • 학습률(Learning Rate) 등 하이퍼파라미터를 조정하여 최적의 결과 도출
  • 평가 기준: F1-마이크로 스코어(F1-micro score, 프레임별 정밀도와 재현율을 결합한 점수)

③ 실험 결과: 어떤 모델이 가장 잘했을까?

모델중국어 F1 점수
GPT-4o (제로샷) 0.560
XLM-RoBERTa (SemEval 데이터만 학습) 0.584
XLM-RoBERTa (중국어 뉴스 프레이밍 데이터만 학습) 0.719
XLM-RoBERTa (SemEval + 중국어 데이터 함께 학습) 0.753

📌 핵심 결과 요약

1️⃣ 기존 SemEval 데이터만 학습한 모델의 중국어 성능은 0.584로 낮음.
2️⃣ 중국어 뉴스 프레이밍 데이터셋만 학습한 경우 0.719까지 성능이 올라감.
3️⃣ 기존 SemEval 데이터와 중국어 데이터를 함께 학습했을 때 0.753으로 최고 성능 달성.
4️⃣ GPT-4o는 다소 부정확했으며(0.560), 너무 많은 프레임을 예측하는 경향이 있음.

결과적으로, 중국어 뉴스 프레이밍 데이터셋을 학습하면 AI가 훨씬 더 정확하게 뉴스를 분석할 수 있다는 것이 입증되었습니다.
특히 기존 다국어 데이터에 중국어 데이터를 추가하면 성능이 더욱 향상된다는 것이 이번 연구의 중요한 발견입니다.


결론: 왜 이 연구가 중요한가?

세계 최초의 중국어 뉴스 프레이밍 데이터셋을 공개
중국어 뉴스 프레이밍을 기존 다국어 모델보다 더 정확하게 분석할 수 있는 가능성 제시
기존 다국어 뉴스 분석 모델(XLM-RoBERTa)을 보완할 수 있는 새로운 데이터셋 구축

이번 연구는 AI가 뉴스의 숨겨진 프레임을 분석하는 데 활용될 수 있음을 보여주는 중요한 사례입니다.
향후 연구에서는 더 많은 중국어 뉴스를 포함해 프레임 변화 추이를 분석하거나, 더 복잡한 AI 모델을 적용하는 방향으로 발전할 가능성이 있습니다.