Article Review

[LLM/정치학] Liu et al (2025) LLM+ 전문가를 활용한 정치 네트워크 데이터의 자동 Annotation

Dr. Julia 2025. 3. 14. 02:52

정치 네트워크 데이터의 자동 주석(Annotation): 대형 언어 모델(LLM)과 전문가 지식을 결합한 새로운 프레임워크

현대 정치학에서는 국제 협상, 군사 동맹, 무역 관계와 같은 다양한 사회적 네트워크를 분석하기 위해 **장기적 네트워크 데이터(Longitudinal Network Data)**가 필수적입니다. 이러한 데이터는 시간의 흐름에 따라 변화하는 국가 간 관계와 상호작용을 분석하는 데 사용되며, 정책 변화와 국제 정세를 연구하는 핵심 자료가 됩니다.

하지만, 이러한 데이터를 구축하는 과정은 어렵고 시간이 오래 걸립니다. 기존에는 연구자들이 **직접 문서를 읽고 네트워크 관계를 수동으로 태깅(annotation)**해야 했고, 최근에는 지도 학습(Supervised Learning) 기반의 머신러닝 모델이 일부 자동화 작업을 수행하고 있습니다. 하지만, 기존 방법에는 다음과 같은 한계가 있습니다.

1️⃣ 수동 주석(Annotation)의 속도 문제: 새로운 데이터가 지속적으로 쏟아지지만, 사람이 직접 태깅해야 하므로 최신 데이터를 반영하는 데 시간이 많이 걸립니다.
2️⃣ 의미 변화 문제: 정치적 용어와 개념이 시간이 지나면서 변화하므로, 과거에 사용된 태깅 기준이 최신 데이터에 적합하지 않을 수 있습니다.
3️⃣ 복잡한 관계 문제: 정치 네트워크는 국가 간 동맹, 반대, 지지 등 다양한 형태로 나타나며, 이러한 관계는 문서 내에서 직접적으로 언급되지 않고 암시적으로 표현되는 경우가 많습니다.

👉 이 연구에서는 대형 언어 모델(LLM)을 활용하여 장기적 네트워크 데이터를 자동으로 주석할 수 있는 새로운 프레임워크(EALA)를 개발했습니다.
EALA(Expert-Augmented LLM Annotation)는 LLM의 언어 이해 능력을 활용하는 동시에 전문가가 만든 코드북(Codebook)과 과거의 주석 데이터를 결합하여 더 정확하고 일관된 자동 주석 시스템을 구축하는 것을 목표로 합니다.

연구 방법: 정치적 관계 데이터를 어떻게 자동으로 주석할 것인가?

정치적 관계 데이터는 국가 간 동맹, 반대, 지지, 협력과 같은 상호작용을 추적하고 분석하는 데 필수적인 자료입니다. 하지만 이러한 데이터를 수집하고 체계적으로 정리하는 과정은 매우 복잡하고 시간이 많이 걸립니다. 기존 연구들은 주로 연구자가 직접 문서를 읽고 관계를 정의한 후 수동으로 태깅(Annotation)하는 방식을 사용해 왔지만, 이러한 접근법은 속도가 느리고, 대량의 데이터를 실시간으로 처리하기 어렵다는 문제를 가지고 있습니다.

이 연구에서는 대형 언어 모델(LLM)을 활용하여 정치적 관계 데이터를 자동으로 주석할 수 있는 방법을 개발했습니다. 연구팀이 제안한 EALA(Expert-Augmented LLM Annotation) 프레임워크LLM의 자연어 이해 능력을 활용하면서, 전문가가 구축한 코드북(Codebook)과 과거의 인간 주석 데이터를 결합하여 더 정확하고 일관된 자동 주석 시스템을 구축하는 것을 목표로 합니다.


📌 연구의 핵심 질문: "LLM을 활용해 정치적 관계 데이터를 자동으로 주석할 수 있을까?"

연구팀은 정치적 관계 데이터를 자동으로 주석하는 과정에서 다음과 같은 세 가지 주요 문제를 해결하고자 했습니다.

1️⃣ 문제점 1: 기존 연구는 수동 태깅에 의존해 업데이트가 어렵다

  • 기존 정치 네트워크 데이터는 전문가들이 직접 문서를 읽고 관계를 정의한 후 수동으로 태깅하는 방식으로 구축되었습니다.
  • 이러한 방식은 새로운 데이터가 지속적으로 유입될 때 실시간 업데이트가 어렵다는 문제가 있습니다.
  • 연구자들이 최신 정치적 관계를 분석하려 해도, 데이터가 몇 년씩 늦어질 수밖에 없습니다.

2️⃣ 문제점 2: 정치적 의미는 시간이 지나면서 변한다

  • 정치적 개념과 용어는 시간이 지나면서 의미가 변화할 수 있습니다.
  • 예를 들어, 기후 협상에서 초기에 사용된 "개발도상국 vs 선진국" 프레임은 시간이 지나면서 **"공동의 차별적 책임(Common but Differentiated Responsibilities)"**으로 변화했습니다.
  • 기존의 주석 모델은 과거 데이터를 기반으로 학습했기 때문에, 최신 정치적 의미를 반영하지 못할 가능성이 높음.

3️⃣ 문제점 3: 복잡한 정치적 관계는 암시적으로 표현된다

  • 정치적 관계는 문서에서 명확하게 표현되지 않고 암시적으로 등장하는 경우가 많습니다.
  • 예를 들어, "A국이 B국과 공동 입장을 발표했다."는 문장은 "A국과 B국이 동맹 관계"일 가능성이 크지만, 문장 자체에서는 직접적으로 동맹이라는 단어를 사용하지 않음.
  • 기존 기계 학습 모델은 이러한 미묘한 관계를 이해하는 데 한계가 있음.

👉 연구팀은 이러한 문제를 해결하기 위해, LLM을 활용한 자동 주석 시스템(EALA)을 개발했습니다.


🔍 연구 방법: 3가지 핵심 요소를 중심으로 자동 주석 시스템 구축

EALA(Expert-Augmented LLM Annotation) 프레임워크는 세 가지 핵심 요소를 결합하여 정치적 관계 데이터를 자동으로 주석할 수 있도록 설계되었습니다.

1️⃣ 전문가 코드북(Codebook) 활용
2️⃣ 과거 인간 주석(Human-Annotated Data) 학습
3️⃣ 태스크(Task) 분해를 통한 LLM의 성능 향상


🟠 1. 전문가 코드북(Codebook) 활용: LLM이 전문가의 기준을 학습하도록 돕는다

LLM은 강력한 언어 이해 능력을 가지고 있지만, 정치적 관계를 정확하게 정의하고 태깅하는 기준을 스스로 학습하기는 어렵습니다. 따라서 연구팀은 전문가들이 직접 정의한 코드북(Codebook)을 활용하여 LLM이 올바른 기준을 따를 수 있도록 학습하는 방법을 제안했습니다.

📌 코드북이란?

**코드북(Codebook)**은 **정치학 연구자들이 구축한 주석 지침(Annotation Guideline)**으로, 다음과 같은 내용을 포함합니다.

✔️ 라벨 정의(Label Definitions)

  • 각 관계 유형(예: 동맹, 반대, 지지, 협력 등)의 명확한 정의
  • 어떤 상황에서 특정 라벨을 적용해야 하는지에 대한 기준

✔️ 추가 규칙(Coding Rules)

  • 특정 관계가 존재할 때 자동으로 파생되는 관계 예측 규칙
  • 예를 들어, "A국이 B국을 반대하면, B국은 A국을 반대하는 관계도 자동으로 추가해야 한다."

📌 예제: 국제 기후 협상 데이터에서 코드북 적용

연구팀은 국제 기후 협상 데이터를 분석하기 위해 Castro(2017)에서 제공한 코드북을 활용했습니다.

📌 "지지(Support)" 관계의 정의

  • "한 국가가 다른 국가의 발언을 명시적으로 지지한다고 언급할 경우"
  • "지지는 문장에서 직접 표현되지 않더라도, 맥락을 통해 확인될 수 있음"

📌 "대변(On Behalf of)" 관계의 정의

  • "국가 A가 국가 B를 대신하여 발언할 경우"
  • "단, 공식적인 동맹 관계에서는 개별 국가가 아닌 동맹 자체가 대표로 간주됨"

📌 추가 규칙(Transitivity Rule)

  • "A국이 B국을 지지하고, B국이 C국을 지지하면, A국은 C국도 지지하는 것으로 간주 가능"

🟠 2. 과거 인간 주석(Human-Annotated Data) 학습: LLM이 실제 데이터에서 패턴을 학습하도록 지원

코드북은 개념적으로 명확한 기준을 제공하지만, 실제 문서에서 이를 어떻게 적용할지는 다를 수 있습니다.

따라서 연구팀은 기존 인간 주석 데이터를 활용하여 LLM이 코드북을 실전에서 적용하는 방식을 학습하도록 설계했습니다.

✔️ 이전 협상 기록을 바탕으로 LLM이 태깅 패턴을 학습
✔️ 라벨 간의 미묘한 차이를 더 정교하게 구분할 수 있도록 도움
✔️ Fine-tuning(파인튜닝) 또는 In-Context Learning을 통해 모델의 성능 향상


🟠 3. 태스크(Task) 분해를 통한 LLM의 성능 향상

정치적 관계 데이터를 주석하는 작업은 단순한 문장 분류보다 복잡한 분석을 요구합니다. 따라서 연구팀은 태스크를 단계적으로 나누어 LLM이 더 정확하게 학습할 수 있도록 설계했습니다.

📌 태스크 분해의 과정

✔️ 1단계: 관계(Relation) 추출

  • "A국이 B국을 지지했다" 또는 "A국이 B국에 반대했다" 등의 관계를 식별
    ✔️ 2단계: 속성(Attribute) 예측
  • "이 관계는 기후변화 협상(Climate Change Negotiation)과 관련이 있다"

이 방식을 적용하면 LLM이 한 번에 복잡한 관계를 예측하는 것보다 성능이 향상되며, 잘못된 예측을 줄일 수 있습니다.

 

📌 연구 결과: LLM을 활용한 자동 주석이 기존 방법보다 얼마나 효과적인가?

연구팀은 EALA(Expert-Augmented LLM Annotation) 프레임워크가 기존의 수동 주석 방식과 지도 학습(Supervised Learning) 모델보다 정확하고 효율적인지를 검증하기 위해 다양한 실험을 수행했습니다.

✔️ 실험 목표

  1. EALA가 인간 주석(Human Annotation)과 비교했을 때 얼마나 정확한가?
  2. EALA가 기존의 지도 학습 모델(T5-base)보다 우수한가?
  3. EALA의 세 가지 핵심 요소(코드북 활용, 과거 인간 주석 데이터 학습, 태스크 분해)가 각각 얼마나 기여하는가?

✔️ 실험 데이터

  • Castro(2017)에서 제공한 국제 기후 협상 데이터
    • 1995~2013년 사이의 협상 기록
    • 62,097개의 국가 간 상호작용(예: 지지, 반대, 협력 등)
    • 215개의 협상 참여국 및 동맹
    • 19개의 협상 주제
  • ENB(Earth Negotiations Bulletin)에서 수집한 최신 기후 협상 데이터
    • 2014~2024년까지의 협상 기록 추가
    • 총 678개의 협상 보고서

✔️ 비교 대상 모델

  • EALA (Llama-3-8B 및 GPT-4o 기반 모델)
  • T5-base (전통적인 지도 학습 모델)
  • 인간 주석(Human Annotation) 결과

🟠 연구 결과 1: EALA가 인간 주석과 비교했을 때 얼마나 정확한가?

연구팀은 EALA 프레임워크가 실제 연구자들의 수동 주석과 비교하여 얼마나 정확한지를 평가했습니다.

비교 방법:

  • 연구자 10명을 모집하여 153개 문단을 개별적으로 주석하도록 함
  • 동일한 문단을 EALA가 자동으로 주석하도록 설정
  • 인간 주석자 간 의견이 불일치하는 경우 추가 토론을 통해 최종 결정
  • Precision(정밀도)과 Recall(재현율)을 비교

결과:

모델Precision(정밀도, %)Recall(재현율, %)
개별 인간 주석자 67.5 89.2
인간 주석자(토론 후 최종 결정) 67.2 90.3
EALA (Llama-3-8B 기반) 74.0 90.0

📌 해석:

  • EALA의 Precision(정밀도)이 인간 주석보다 6.5% 더 높음!
    • 즉, EALA가 주석한 데이터가 연구자들이 직접 태깅한 데이터보다 더 정확하게 태깅됨.
  • EALA의 Recall(재현율)은 인간 주석과 거의 동일
    • 이는 EALA가 기존 주석 방식보다 더 높은 정확도를 유지하면서도, 중요한 관계들을 놓치지 않는다는 의미.

💡 결론:
👉 EALA는 인간 연구자들과 유사한 수준의 정밀도를 보이며, 연구자보다 오히려 더 높은 정확도를 기록!


🟠 연구 결과 2: EALA가 기존 지도 학습 모델(T5-base)보다 우수한가?

연구팀은 EALA가 기존 지도 학습 모델(T5-base)보다 더 정확한 결과를 제공하는지 비교했습니다.

비교 방법:

  • 지도 학습 모델(T5-base)은 과거 인간 주석 데이터를 학습하여 관계를 예측
  • EALA는 코드북과 과거 인간 주석 데이터를 활용하여 관계를 예측
  • Precision(정밀도)과 Recall(재현율)을 비교

결과:

모델코드북 사용과거 주석 데이터 사용Precision(정밀도, %)Recall(재현율, %)
T5-base (기존 지도 학습 모델) 33.2 10.1
Llama-3-8B (지도 학습 X, 코드북 X, 과거 데이터 X) 0.9 1.0
Llama-3-8B (지도 학습 X, 코드북 X, 과거 데이터 예제 포함) 20.0 20.1
Llama-3-8B (지도 학습 X, 코드북 포함, 과거 데이터 포함) 77.7 90.3
GPT-4o (지도 학습 X, 코드북 포함, 과거 데이터 포함) 63.7 46.4

📌 해석:

  • 기존 지도 학습 모델(T5-base)의 Precision(정밀도)은 33.2%에 불과하고, Recall(재현율)은 10.1%로 매우 낮음.
  • EALA(Llama-3-8B + 코드북 + 과거 주석 데이터)는 Precision 77.7%, Recall 90.3%로 압도적인 성능 차이!
  • GPT-4o 기반 EALA도 기존 모델보다 우수하지만, Llama-3-8B가 가장 강력한 성능을 보임.

💡 결론:
👉 기존 지도 학습 모델은 정치적 관계를 정확하게 예측하지 못하지만, EALA는 훨씬 높은 정밀도와 재현율을 기록함!


🟠 연구 결과 3: EALA의 세 가지 핵심 요소가 각각 얼마나 기여하는가?

연구팀은 EALA의 세 가지 핵심 요소(코드북 활용, 과거 인간 주석 데이터 학습, 태스크 분해)가 모델 성능에 미치는 영향을 평가했습니다.

결과:

모델코드북 사용과거 데이터 사용태스크 분해 적용Precision(정밀도, %)Recall(재현율, %)
Llama-3-8B (EALA, 기본 설정) 77.7 90.3
코드북 제거 73.7 54.0
과거 데이터 제거 52.3 68.3
태스크 분해 없이 한 번에 처리 36.0 54.1

📌 해석:

  • 코드북을 제거하면 Recall(재현율)이 36.3% 하락 → 코드북이 정확한 관계 태깅을 수행하는 데 필수적임.
  • 과거 인간 주석 데이터를 제거하면 Precision(정밀도)이 25.4% 하락 → 모델이 관계 패턴을 학습하는 데 중요한 역할.
  • 태스크(Task) 분해를 하지 않으면 성능이 급격히 하락 → 한 번에 모든 관계를 추출하려고 하면 모델이 많은 오류를 범함.

💡 결론:
👉 EALA의 모든 요소가 중요하지만, 코드북과 태스크 분해가 특히 성능 향상에 결정적인 역할을 함!


🔎 최종 결론: EALA는 정치 네트워크 분석의 새로운 패러다임을 제시한다

EALA는 인간 연구자보다 높은 정밀도를 보이며, 기존 지도 학습 모델을 압도함
코드북과 과거 인간 주석 데이터가 모델 성능 향상에 필수적
태스크 분해를 통해 복잡한 관계 분석이 더욱 정밀해짐

향후 연구에서는 더 긴 문맥을 처리하는 방법과 정치 네트워크 관계의 복잡성을 반영하는 방식이 추가적으로 연구될 필요가 있습니다. 🚀