Article Review

[논문리뷰] Sermpezis et al (2025) 정치담론을 다중 annotated한 데이터셋 소개

Dr. Julia 2025. 1. 22. 07:20

AgoraSpeech: AI와 인간의 협업으로 만들어진 정치적 담론 분석 데이터셋

정치적 연설은 지도자의 전략, 이념, 그리고 대중과의 소통 방식을 이해하는 데 중요한 단서가 됩니다. 그러나 정치 담론을 분석하기 위한 데이터셋은 종종 품질, 규모, 그리고 주석(annotation)의 일관성에서 한계를 보입니다. AgoraSpeech는 이러한 문제를 해결하기 위해 설계된 고품질 다중 주석 데이터셋으로, 2023년 그리스 총선 기간 동안의 정치 연설을 기반으로 만들어졌습니다.

이 데이터셋은 AI와 인간의 협업을 통해 구성되었으며, 텍스트 분류, 주제 식별, 감정 분석, 극화(Polarization) 및 포퓰리즘 탐지, 명명 엔터티 인식(Named Entity Recognition, NER)이라는 6가지 주요 NLP 작업을 지원합니다. 이 글에서는 AgoraSpeech의 생성 과정과 분석 결과를 통해 이 데이터셋이 어떻게 만들어졌는지, 그리고 사회과학 및 데이터 과학 연구에 어떤 기여를 할 수 있는지 자세히 살펴보겠습니다.


AgoraSpeech의 주요 특징

  1. 다양한 연설 데이터: 그리스 주요 정치인 6명이 2023년 총선 기간 동안 발표한 171개의 연설, 총 5,279개 단락, 약 71만 단어로 구성.
  2. 하이브리드 주석 방식: ChatGPT를 활용한 자동 주석과 인간 전문가의 검증 과정을 결합.
  3. 다차원 분석 가능: 텍스트 분류, 주제 식별, 감정 분석, 극화 및 포퓰리즘 탐지 등 다양한 연구 질문에 대응 가능.
  4. 오픈소스 데이터: 데이터와 분석 코드는 누구나 접근 가능하도록 공개.

AgoraSpeech 데이터셋 생성 과정: AI와 인간의 협업

AgoraSpeech 데이터셋은 철저하고 체계적인 절차를 통해 생성되었습니다.

1. 데이터 수집 및 전처리

  • 데이터 출처: 정치인의 공식 웹사이트, SNS 계정, 그리고 그리스 뉴스 채널(ANA-MPA, ERT 등)에서 연설 자료를 수집.
  • 분석 대상: 선거 기간 동안 발표된 전체 연설만 포함. 짧은 발언이나 비공식적 대화는 배제.
  • 텍스트 정리:
    • 연설이 문단별로 나뉘어 있는 경우 원래 구조를 유지.
    • 음성 또는 영상 자료는 AI 기반 전사 도구(Transkriptor)를 사용해 텍스트로 변환.
    • 모든 텍스트는 DeepL API를 활용해 영어로 번역.

2. ChatGPT를 활용한 초기 자동 주석

ChatGPT(GPT-3.5-turbo 모델)를 활용해 연설 데이터를 분석하고 NLP 작업에 필요한 주석을 생성했습니다.

  • 텍스트 분류: 각 문단이 "정책 발표"인지 "비판"인지 구분.
  • 주제 식별: 미리 정의된 33개의 주제(예: 경제, 고용, 교육 등) 중 하나를 문단의 주제로 지정.
  • 감정 분석: 문단의 감정을 -1(부정적)에서 1(긍정적)까지 점수화.
  • 극화 탐지: 극화 정도를 0(낮음)에서 1(높음)까지 평가.
  • 포퓰리즘 탐지: 포퓰리즘 수준을 0(낮음)에서 1(높음)까지 측정.
  • 명명 엔터티 인식(NER): 문단에서 인물, 장소, 조직 등 주요 엔터티를 추출.

ChatGPT 프롬프트 설계

ChatGPT가 일관된 주석을 생성하도록 프롬프트를 세심하게 설계했습니다.

  • 각 작업에 맞는 프롬프트(질문과 맥락 제공) 작성.
  • 예: 주제 식별을 위해, "다음 텍스트의 주요 주제를 선택하세요. 선택지는 [주제 목록]입니다."
  • 특정 정치적 맥락(예: 사고, 선거일 등)을 프롬프트에 추가해 응답 정확도를 높임.

 

AgoraSpeech: 포퓰리즘과 극화(Polarization) 탐지의 기준과 방법

AgoraSpeech 데이터셋에서 포퓰리즘과 극화(Polarization)는 정치적 담론의 중요한 측면으로 분석되었습니다. 이 두 개념은 정치적 연설에서 대중의 감정과 반응을 유도하는 데 중요한 역할을 하며, 데이터셋의 분석에서 명확한 기준과 체계적인 접근 방식을 통해 분류되었습니다. 다음은 포퓰리즘과 극화 탐지 방법에 대한 상세한 설명입니다.


포퓰리즘 탐지: 정의와 적용

포퓰리즘은 대중을 "순수하고 도덕적인 집단"으로, 엘리트를 "부패하고 부정적인 집단"으로 묘사하며 대립 구조를 형성하는 정치적 담론을 뜻합니다. AgoraSpeech에서는 이 정의를 기반으로 포퓰리즘을 탐지했습니다.

1. 분류 기준

  • 낮음(No/Low): 0 ~ 0.5
    • 포퓰리즘적 요소가 거의 없거나 발견되지 않음.
    • 예: 정책 중심의 실질적이고 중립적인 담론.
  • 중간(Medium): 0.51 ~ 0.8
    • 대중과 엘리트 간의 대립을 부분적으로 암시하지만, 강도가 낮음.
    • 예: 특정 집단에 대한 비판이 있지만, 대중을 직접적으로 영웅화하지 않음.
  • 높음(High): 0.81 ~ 1
    • 대중-엘리트 대립 구도를 강하게 드러냄.
    • 예: "대중이 주권을 잃었다" 또는 "부패한 엘리트들로부터 나라를 구해야 한다"와 같은 표현.

2. ChatGPT를 활용한 초기 분류

ChatGPT는 포퓰리즘 탐지를 위해 다음과 같은 정의와 프롬프트를 기반으로 학습되었습니다.

  • 포퓰리즘 정의: "포퓰리즘은 대중과 엘리트를 대립시키고 대중의 목소리를 강조하는 담론 방식입니다."
  • 프롬프트 예시:
    • "다음 텍스트에서 포퓰리즘의 정도를 0에서 1 사이의 숫자로 평가하세요. 포퓰리즘의 정의는 다음과 같습니다: [포퓰리즘 정의]."

ChatGPT는 문장 구조와 단어 선택을 분석해 포퓰리즘 수준을 0에서 1 사이의 점수로 평가했습니다.

3. 인간 검증 과정

데이터 저널리스트와 정치학자들은 ChatGPT의 결과를 검토하고, 다음과 같은 방식으로 수정했습니다:

  • "중간"과 "높음" 간의 모호성 해소: 예를 들어, 특정 구절이 강한 감정적 대립을 드러내더라도 엘리트와 대중 간의 직접적인 대립을 언급하지 않으면 "중간"으로 분류.
  • 특정 용어와 맥락 고려: "부패한 엘리트들" 또는 "대중이 나라를 구해야 한다" 같은 문장은 "높음"으로 재분류.
  • 문단의 전체 맥락 반영: 포퓰리즘이 한 문장에서만 나타나는 경우, 문단 전체의 맥락을 분석해 최종 점수 조정.

극화 탐지: 정의와 적용

극화는 담론이 정치적 입장 간의 갈등을 강조하고 대립 구도를 강화하는 정도를 뜻합니다. AgoraSpeech에서는 극화 수준을 정량적으로 평가하여 문단별로 분류했습니다.

1. 분류 기준

  • 낮음(No/Low): 0 ~ 0.5
    • 갈등 요소가 거의 없거나 중립적인 표현이 주를 이룸.
    • 예: 정책 목표를 논의하며 특정 정치 집단이나 상대를 언급하지 않음.
  • 중간(Medium): 0.51 ~ 0.8
    • 특정 집단이나 정책에 대한 비판적 태도를 보이지만, 갈등을 직접적으로 조장하지 않음.
    • 예: "현재의 정책은 부족하지만, 개선이 필요하다."
  • 높음(High): 0.81 ~ 1
    • 갈등과 대립을 강조하며 상대방을 직접적으로 비난하거나 대중의 분노를 자극함.
    • 예: "그들은 나라를 망쳤다!" 또는 "우리와 그들 사이의 싸움이다."

2. ChatGPT를 활용한 초기 분류

ChatGPT는 극화 탐지를 위해 다음과 같은 정의와 프롬프트를 사용했습니다.

  • 극화 정의: "극화는 정치적 입장 간의 갈등을 강조하거나 대립 구도를 강화하는 담론입니다."
  • 프롬프트 예시:
    • "다음 텍스트에서 극화의 정도를 0에서 1 사이의 숫자로 평가하세요. 극화의 정의는 다음과 같습니다: [극화 정의]."

ChatGPT는 감정적 언어, 대립 구조, 그리고 특정 단어(예: "싸움", "분열")의 사용을 기반으로 극화 수준을 평가했습니다.

3. 인간 검증 과정

ChatGPT의 결과는 인간 전문가에 의해 다음과 같은 과정을 거쳐 검토되었습니다.

  • 정확한 갈등 수준 분석: 예를 들어, ChatGPT가 "중간"으로 분류한 경우 실제로 "낮음"에 해당하는지, 또는 "높음"으로 분류해야 하는지를 판단.
  • 강도 조정: 극화 수준이 0.6으로 표시된 경우, 전문가의 판단에 따라 "0.5(낮음)"로 조정.
  • 문단 간의 연계성 분석: 특정 문단에서만 극화가 드러날 경우, 연설 전체의 맥락에서 조정.

포퓰리즘과 극화 탐지의 결과

AgoraSpeech의 포퓰리즘 및 극화 탐지는 정치적 담론에서 두 개념의 사용 빈도와 강도를 파악하는 데 중요한 통찰을 제공합니다.

1. 포퓰리즘 결과

  • 낮은 포퓰리즘: 전체 문단의 95% 이상이 낮은 포퓰리즘 수준으로 평가됨.
  • 정치인별 차이:
    • 미초타키스와 벨로풀로스는 포퓰리즘 요소를 거의 사용하지 않음(0%에 가까움).
    • 쿠초움파스와 치프라스는 "중간" 포퓰리즘 수준에서 비교적 높은 점수를 보임.

2. 극화 결과

  • 낮은 극화: 전체 문단의 88%가 낮은 극화 수준으로 평가됨.
  • 정치인별 차이:
    • 미초타키스는 극화 수준이 가장 낮았으며(94%가 낮음),
    • 쿠초움파스는 극화가 가장 두드러졌음(16%가 중간 또는 높음).

3. 인간 전문가의 검증 (Human-in-the-loop Validation)

ChatGPT의 초기 주석은 데이터 저널리스트와 정치학자로 구성된 전문가 팀이 검토하고 수정했습니다.

  • 검증 목적: ChatGPT 주석의 정확도를 높이고, 자동화 과정에서 누락된 정보를 보완.
  • 검증 과정:
    • 텍스트 분류: ChatGPT가 "정책 발표"로 잘못 분류한 문단을 "비판"으로 수정.
    • 주제 식별: ChatGPT가 "기타(Other)"로 분류한 문단에 구체적인 주제를 추가.
    • 감정 분석: 잘못된 감정 점수를 검토하고 수정.
    • 극화 및 포퓰리즘 탐지: ChatGPT가 과소평가하거나 과대평가한 사례를 전문가의 판단으로 재조정.
    • NER: 번역 및 텍스트 변형 과정에서 발생한 엔터티의 변형을 표준화.

AgoraSpeech 데이터셋의 주요 결과

AgoraSpeech는 총 31,674개의 주석을 포함하며, 다음과 같은 분석 결과를 제공합니다.

1. 텍스트 분류

  • 정책 발표 vs. 비판: 전체 문단 중 61%가 "정책 발표", 39%가 "비판"으로 분류됨.
  • 정치인별 차이:
    • 미초타키스(신민주당)는 85%가 정책 발표로, 비판을 거의 하지 않음.
    • 벨로풀로스(그리스 해결)는 71%가 비판으로, 가장 높은 비판 비율을 보임.

2. 주제 분석

  • 가장 많이 언급된 주제: 선거(25.5%), 경제(12.9%), 고용(6.2%).
  • 정치인별 주제 차이:
    • 미초타키스와 치프라스(시리자)는 선거와 경제에 집중.
    • 바루파키스(MeRA25)는 민주주의와 고용 문제를 더 강조.

3. 감정 분석

  • 미초타키스는 74% 긍정적인 톤으로, 벨로풀로스는 72% 부정적인 톤으로 대조적.
  • 바루파키스는 중립적 감정 비율이 가장 높음(39%).

4. 극화 및 포퓰리즘 탐지

  • 극화:
    • 미초타키스의 연설은 94%가 낮은 극화 수준.
    • 쿠초움파스(그리스 공산당)는 가장 높은 극화 수준(16% 중간~높음).
  • 포퓰리즘:
    • 대부분의 연설이 "낮은 포퓰리즘"으로 평가됨.
    • 벨로풀로스와 미초타키스는 포퓰리즘을 거의 사용하지 않음.

AgoraSpeech의 활용 사례

AgoraSpeech는 다양한 분야에서 활용될 수 있습니다:

  1. 정치학 연구: 정치적 극화와 포퓰리즘 분석, 정책 우선순위 파악.
  2. 저널리즘: 연설 전략과 메시지의 변화를 시각화하고 대중에게 전달.
  3. NLP 연구: 모델 학습 및 검증을 위한 벤치마크로 활용.
  4. 공공 데이터 시각화: 정치 연설 데이터를 대중에게 투명하게 공유.

AgoraSpeech의 한계와 미래 방향

한계

  1. 번역 과정의 한계: 원문의 뉘앙스와 감정이 번역 과정에서 일부 손실될 가능성.
  2. 문단 단위 분석: 문단 단위로 분석하다 보니 전체 맥락을 놓칠 수 있음.
  3. ChatGPT의 한계: 극화와 포퓰리즘 같은 복잡한 개념 탐지에서 성능 저하.

미래 방향

  1. 다국어 확장: 다양한 언어로 적용하여 글로벌 연구 가능성 확대.
  2. 더 정교한 모델 도입: 딥러닝 모델을 활용해 복잡한 분석 작업 수행.
  3. 연속적 분석: 문단을 넘어 연설 전체를 맥락으로 분석하는 방식 도입.

결론: 정치적 담론 연구의 새로운 기준

AgoraSpeech는 정치 담론 연구와 NLP 연구 모두에 혁신적인 기여를 하는 데이터셋입니다. AI와 인간의 협업으로 만들어진 이 데이터셋은 데이터 분석의 투명성과 품질을 한 단계 끌어올렸습니다.

AgoraSpeech는 정치적 메시지의 본질을 탐구하고 이를 대중과 연구자 모두에게 전달하는 다리 역할을 합니다.
이를 통해 우리는 정치적 담론의 패턴을 더 깊이 이해하고, 민주적 논의를 강화할 수 있을 것입니다.