Article Review

[LLM/정치학] Nikolaev & Papay (2025) 정치 발언 자동분석 방법: 분할(Segmentation)과 라벨링(Labelling)의 혁신적 전략

Dr. Julia 2025. 3. 14. 02:25

정치 발언을 자동으로 분석하는 방법: 분할(Segmentation)과 라벨링(Labelling)의 혁신적 전략

정치 텍스트 분석은 최근 들어 더욱 발전하고 있으며, 특히 정당의 정책 발표문(Party Manifestos)과 의회 연설(Parliamentary Speeches)을 자동으로 분석하는 방법이 중요한 연구 주제로 떠오르고 있습니다. 정책 발표문은 정치적 입장을 명확하게 정리한 문서이며, 의회 연설은 실시간으로 변화하는 정치적 토론을 반영합니다.

기존의 연구들은 이러한 정치 문서들을 분석하기 위해 **지도 학습(Supervised Learning)**과 비지도 학습(Unsupervised Learning) 기법을 혼합해 사용해 왔습니다. 예를 들어, MARPOR 프로젝트는 전 세계 60개국 이상의 정당 정책 발표문을 문장 수준으로 직접 라벨링한 대규모 데이터셋을 제공하며, 이를 활용한 다양한 연구들이 진행되고 있습니다. 그러나 현재까지의 연구는 주어진 문장을 분석하는 데 초점을 맞추었으며, 문장을 자동으로 분할(Segmentation)하고 라벨링(Labelling)하는 과정은 충분히 연구되지 않았습니다.

이 논문에서는 정치 텍스트를 자동으로 분석하는 새로운 방법을 제안하며, 텍스트를 문장 단위로 나누고 적절한 정치적 라벨을 할당하는 세 가지 접근법을 비교합니다. 연구팀은 다음과 같은 방법을 실험했습니다.

1️⃣ CRF(Conditional Random Fields) 기반 모델
2️⃣ Flan-T5(대형 Transformer 모델) 기반 모델
3️⃣ Llama 3.1을 이용한 In-Context Learning (ICL) 모델

이제 연구 방법을 구체적으로 살펴보겠습니다.

.

연구 방법: 정치적 발언을 어떻게 자동으로 분석할 것인가?

정치 텍스트 분석은 정당의 정책 발표문(Party Manifestos)이나 의회 연설(Parliamentary Speeches)과 같은 문서를 자동으로 처리하여 정치적 입장(Political Stance)이나 이슈를 분류하는 것을 목표로 합니다. 하지만 이러한 문서는 일반적으로 정형화되어 있지 않고, 다양한 길이와 문장 구조를 가질 수 있어 분석이 쉽지 않습니다.

이 연구는 정치 텍스트를 문장 단위로 분할(Segmentation)하고, 적절한 정치적 라벨을 자동으로 할당하는 방법을 개발하는 것을 목표로 합니다. 연구팀은 이를 위해 세 가지 다른 접근법을 비교하였으며, 각 방법이 정치적 발언을 자동으로 분석하는 데 있어 어떤 장점과 한계를 가지는지를 평가했습니다.


📌 연구의 핵심 질문: "문장 단위로 자동 분석이 가능할까?"

연구팀은 기존 연구가 가진 세 가지 주요 문제점을 해결하고자 했습니다.

1. 기존 연구는 이미 "나누어진 문장"에서 라벨을 예측

  • 대부분의 연구는 이미 문장이 구분된 상태에서 정치적 입장을 예측하는 데 초점을 맞추었습니다.
  • 하지만 현실에서는 문장이 명확하게 나뉘어 있지 않으며, 하나의 문장 안에 여러 정치적 의미가 섞여 있을 가능성이 큽니다.

2. 기존 모델은 문장 분할과 라벨링을 따로 수행

  • 문장을 먼저 나눈 후, 나뉜 문장을 다시 분석하는 방식이 일반적이었습니다.
  • 하지만 이런 방식은 문장을 어떻게 나누느냐에 따라 결과가 크게 달라지는 문제를 가지고 있습니다.

3. 지도 학습 모델은 특정한 형식의 데이터에서만 작동

  • 기존 모델들은 사전에 정해진 문장 구조에서만 작동할 수 있었습니다.
  • 따라서 다른 형식의 정치적 텍스트(예: 의회 연설, 뉴스 기사 등)에 적용하기 어려운 문제가 있었습니다.

👉 이 연구의 목표는 "문장 분할과 라벨링을 동시에 수행할 수 있는 모델"을 개발하는 것이었습니다.


🔍 연구 방법: 3가지 모델을 비교 실험

연구팀은 **"정치적 발언을 문장 단위로 분할하고, 각 문장에 적절한 라벨을 부여하는 방법"**을 실험적으로 평가했습니다. 이를 위해 세 가지 모델을 비교했습니다.

1️⃣ CRF 기반 모델 (XLM-RoBERTa + CRF)
2️⃣ Flan-T5 (대형 Transformer 모델) 기반 모델
3️⃣ Llama 3.1을 이용한 In-Context Learning (ICL) 모델

각각의 모델이 어떤 방식으로 정치적 텍스트를 분석하는지 자세히 살펴보겠습니다.


🟠 1. CRF 기반 모델 (XLM-RoBERTa + CRF)

CRF(Conditional Random Fields) 기반 모델은 전통적인 지도 학습(Supervised Learning) 기법을 활용하여 문장 분할(Segmentation)과 라벨링(Labelling)을 동시에 수행하는 방식입니다.

이 모델은 **XLM-RoBERTa(다국어 BERT 모델)**를 활용하여 각 단어의 의미를 벡터화한 후, CRF를 이용해 문장 경계를 예측하는 방식으로 작동합니다.

📌 CRF 모델의 작동 과정

1️⃣ BIO 태그(Begin-Inside-Outside) 방식으로 문장을 인코딩

  • 문장의 시작(Begin) → B-태그
  • 문장 내부(Inside) → I-태그
  • 문장과 무관한 단어(Outside) → O-태그

예제 문장:

"정부는 복지 정책을 확대해야 한다. 국민의 삶의 질을 개선하는 것이 중요하다."

BIO 태그 변환:

B-Welfare I-Welfare O B-Government I-Government O

2️⃣ XLM-RoBERTa를 활용해 문장의 의미를 벡터화

  • 다국어 지원이 가능한 XLM-RoBERTa 모델을 사용하여 각 단어를 벡터 표현(Embedding)으로 변환.
  • 이를 통해 CRF가 문장 분할을 더 정교하게 수행할 수 있도록 도움.

3️⃣ CRF를 활용해 문장 경계와 정치적 라벨을 동시에 예측

  • 예측된 BIO 태그를 활용하여 문장 경계를 설정하고, 각 문장에 적절한 MARPOR 라벨을 부여.

✔️ 장점

  • 연산 비용이 낮아 빠른 학습과 추론 가능 (Lightweight 모델)
  • 다국어 지원(XLM-RoBERTa 사용)
  • 비교적 단순한 구조로 높은 해석 가능성 제공

한계점

  • 문장 간의 관계를 분석하는 능력이 부족 (연속된 문맥 이해 어려움)
  • 신경망 기반 모델(Transformer)보다 표현력이 낮음

🟠 2. Flan-T5 (Transformer 기반 모델)

Flan-T5 모델은 **Google의 T5(Transformer 기반 대형 언어 모델)**를 활용하여 문장 분할과 라벨링을 동시에 수행하도록 학습된 모델입니다.

이 모델은 텍스트-텍스트 변환(Text-to-Text) 방식을 사용하여 문장을 나누고, 각 문장에 라벨을 부여하는 방식으로 작동합니다.

📌 Flan-T5 모델의 작동 과정

1️⃣ 입력 텍스트를 260개 토큰 단위로 분할

  • 메모리 문제를 해결하기 위해 긴 문서를 260개 토큰 단위로 나누어 처리.

2️⃣ 문장 분할과 라벨링을 동시에 수행하는 T5 모델 학습

  • 입력 예제:
     
    "정부는 복지 정책을 확대해야 한다. 국민의 삶의 질을 개선하는 것이 중요하다."
  • 예측 출력:
     
    "정부는 복지 정책을 확대해야 한다. [Welfare Expansion] 국민의 삶의 질을 개선하는 것이 중요하다. [Quality of Life]"

3️⃣ Greedy Decoding을 활용하여 라벨링된 문장 생성

  • Flan-T5는 문장을 읽고, 적절한 정치적 라벨을 추가하여 출력함.

✔️ 장점

  • Transformer 모델을 사용하여 보다 정확한 문장 분할 가능
  • CRF보다 높은 정확도를 기록 (F1 Score 상승)
  • Fine-tuning을 통해 도메인 특화 학습 가능

한계점

  • 연산 비용이 높음 (GPU 메모리 사용량 증가)
  • 추론 속도가 느림 (대량의 데이터를 처리하는 데 시간이 많이 걸림)

🟠 3. Llama 3.1을 이용한 In-Context Learning (ICL)

Llama 3.1을 활용한 In-Context Learning (ICL) 방식은 사전 학습된 Llama 3.1 모델을 활용하여 Fine-Tuning 없이 Few-Shot 학습을 수행하는 접근법입니다.

✔️ 장점

  • Fine-Tuning 없이 바로 사용 가능
  • 특정 도메인에 쉽게 적용 가능

한계점

  • Flan-T5보다 정확도가 낮음
  • 긴 문맥을 처리하는 데 어려움

결론: 가장 효과적인 문장 분할 및 라벨링 기법은?

1️⃣ Flan-T5 모델이 가장 높은 정확도를 기록
2️⃣ CRF 기반 모델은 빠르고 가벼운 대안
3️⃣ Llama 3.1 ICL은 빠르게 적용 가능하지만 정확도가 낮음

향후 연구에서는 Flan-T5의 연산 속도를 개선하는 방법과 CRF 모델의 정확도를 높이는 방법이 추가적으로 연구될 필요가 있음. 🚀