Article Review

[논문리뷰] Goet (2019) 텍스트 분석을 통한 편광 측정

Dr. Julia 2025. 1. 8. 21:02

정치적 양극화는 현대 정치에서 뜨거운 주제입니다. 정당 간 갈등이 커지면서 이를 객관적으로 측정하고 분석하는 방법이 중요한 과제가 되었죠. 최근 연구에서는 텍스트 데이터를 활용해 양극화를 측정하는 독특한 방법을 제시했습니다. 바로 의원들이 의회에서 하는 연설을 통해 그들의 정치적 입장을 분석하는 방식입니다. 이번 포스팅에서는 이 연구에서 사용된 두 가지 주요 접근법과 그 결과를 쉽고 간단하게 설명드리겠습니다.


양극화를 텍스트로 측정한다?

의원들은 의회에서 다양한 정책에 대해 연설합니다. 이 연설 속 단어와 표현은 그들이 속한 정당의 이념적 입장을 반영합니다. 예를 들어, 미국 의회에서는 공화당이 "death tax(사망세)"라는 표현을, 민주당은 같은 개념을 "estate tax(재산세)"라고 부르죠. 이런 언어의 차이를 분석하면 정당 간의 이념적 차이를 간접적으로 측정할 수 있습니다.

연구진은 영국 하원의 200년간(1811–2015)의 의회 연설 데이터를 분석해 정당 간 양극화를 측정했습니다. 사용된 데이터는 무려 620만 건 이상의 연설 기록으로 구성되었습니다. 이를 분석하기 위해 비지도 학습(unsupervised learning)과 지도 학습(supervised learning) 두 가지 접근법을 사용했습니다.


방법 1: 비지도 학습 (Unsupervised Learning)

Wordfish와 Wordshoal 모델

  1. Wordfish 모델은 연설 텍스트의 단어 빈도를 기반으로 의원들의 정치적 위치를 추정합니다.
    • 예를 들어, 단어 사용의 빈도가 가장 큰 차이를 설명하는 축을 찾아내고 이를 기준으로 정당 간 갈등 수준을 측정하죠.
    • 하지만 이 방법은 단일 차원을 기준으로 하다 보니, 데이터의 다양한 갈등 요소를 충분히 반영하지 못하는 한계가 있습니다.
  2. Wordshoal 모델은 한 발 더 나아가 각 토론(debate)에서 의원들의 상대적 위치를 분석하고 이를 결합해 더 세부적인 결과를 도출합니다.
    • 그러나 시간에 따른 결과의 일관성이 낮고, 정당 간 차이를 명확히 드러내지 못하는 경우가 많았습니다.

방법 2: 지도 학습 (Supervised Learning)

머신러닝으로 정당 라벨 예측하기

지도 학습은 각 연설이 어떤 정당에 속한 의원의 것인지를 알려주는 정당 라벨(party label) 정보를 활용합니다.

  • 연구진은 확률적 경사하강법(SGD, Stochastic Gradient Descent) 알고리즘을 사용해 연설 텍스트를 학습시켰습니다.
  • 연설에 사용된 단어와 표현을 바탕으로 각 의원의 "당파성(partyness)"을 계산했는데, 이는 그 의원이 얼마나 일관되게 정당 입장을 따르는지를 보여줍니다.

이 방식은 비지도 학습과 달리 정당 라벨 정보를 활용하므로, 갈등 축이 명확히 "정당 간 차이"를 반영하게 됩니다. 또한 새로운 주제가 등장해도 일관성을 유지하는 강점이 있습니다.


 어떻게 정당 라벨을 예측했을까?

1. 데이터 준비 및 전처리

우선, 연구진은 영국 하원의 200년간의 연설 데이터를 수집했습니다. 여기에는 약 620만 개 이상의 연설이 포함되었죠. 하지만 모든 연설이 분석에 적합한 것은 아닙니다. 따라서 데이터에서 다음과 같은 조건을 만족하는 연설만을 선별했습니다:

  • 50단어 이상의 연설만 포함.
  • 정당 소속 정보(라벨)가 명확히 있는 연설만 사용.
  • 질문이나 절차적 발언과 같은 본질적이지 않은 텍스트는 제거.

이렇게 정제된 데이터는 머신러닝 모델이 학습하기 좋은 형태로 변환되었습니다.


2. TF-IDF로 단어 중요도 계산

연설 텍스트에서 중요한 단어를 강조하기 위해 TF-IDF(단어 빈도-역문서 빈도) 변환을 적용했습니다.

  • TF(term frequency): 해당 단어가 특정 연설에서 얼마나 자주 등장했는지를 측정.
  • IDF(inverse document frequency): 해당 단어가 전체 데이터에서 얼마나 흔하게 등장하는지를 측정. 자주 등장하는 단어일수록 가중치가 낮아짐.
    이 과정을 통해, 일반적인 단어(예: "the", "and")는 영향력이 줄어들고, 특정 정당이나 이념을 나타낼 가능성이 높은 단어(예: "tax", "benefits")가 더 강조되었습니다.

3. SGD 알고리즘으로 모델 학습

정제된 데이터를 활용해 SGD 알고리즘을 학습시켰습니다. 이 알고리즘은 텍스트에서 정당 소속을 예측하는 작업을 반복하며 점차 정확도를 높여갑니다.

  • 모델은 특정 단어와 정당 라벨 간의 관계를 학습합니다. 예를 들어, "reducing dependence" 같은 표현은 보수당(Conservative)의 연설에서 자주 나타나는 반면, "benefits squeeze"는 노동당(Labour)의 연설에서 더 자주 등장하죠.
  • 학습 결과, 각 연설 텍스트에 대해 "이 연설이 특정 정당 소속 의원의 것일 확률"을 계산할 수 있었습니다.

4. 의원별 당파성 점수 계산

모든 연설에 대해 정당 소속 확률이 계산되면, 이를 바탕으로 개별 의원의 "당파성(partyness)" 점수를 산출합니다.

  • 예를 들어, 한 의원이 여러 연설에서 대부분 높은 확률로 소속 정당의 언어적 특성을 따르고 있다면, 이 의원의 당파성 점수는 높게 나타납니다.
  • 반대로, 연설에서 다른 정당의 언어적 특성을 보이는 경우가 많다면, 당파성 점수는 낮아집니다.

5. 양극화 측정

마지막으로, 의원들의 당파성 점수를 종합해 정당 간 양극화를 측정했습니다. 당파성 점수가 높다는 것은 특정 정당의 의원들이 사용하는 언어가 다른 정당과 명확히 구별된다는 것을 의미하며, 이는 정당 간의 양극화 수준이 높음을 보여줍니다.


쉽게 풀어보면

이 과정은 의원들의 연설을 "언어적 DNA"처럼 분석해, 각 정당의 고유한 언어 패턴을 발견하고, 이를 통해 정당 간 차이를 측정한 것입니다. 말 그대로 "정치 언어의 숨은 코드"를 풀어낸 셈이죠. 이를 통해 정치적 양극화가 구체적으로 어떻게 드러나는지 이해할 수 있었습니다.


 

결과로 돌아오면.... 지도 학습이 더 정확하다!

연구 결과, 지도 학습 방식(SGD Classifier)이 비지도 학습 방식에 비해 훨씬 더 신뢰성 있고 정확하게 양극화를 측정하는 것으로 나타났습니다.

  • 역사적 사건과의 일치도: 1832년 개혁법 통과, 제1차 세계대전, 대처 정부의 정책 등 주요 정치적 사건에서 나타난 양극화 추세를 지도 학습 모델이 더 잘 반영했습니다.
  • 정당 간 구분도: 지도 학습 결과는 의원들이 속한 정당에 따라 명확히 분리된 모습을 보였지만, 비지도 학습 결과는 정당 간 중첩이 많았습니다.
  • 시간적 일관성: 지도 학습 방식은 의원들의 정치적 입장이 세션(session) 간에 더 일관되게 나타났습니다.

쉽게 풀어본 결론

이 연구는 의원 연설이라는 텍스트 데이터를 통해 정당 간 양극화를 분석한 흥미로운 사례입니다. 특히, 지도 학습 방식을 사용하면 텍스트 데이터를 활용한 양극화 분석이 더 정확하고 신뢰할 만한 결과를 제공할 수 있음을 보여줍니다.

이런 방법은 의회 내 갈등뿐만 아니라, 언론 기사, 정책 문서 등 다른 텍스트 데이터에도 적용할 수 있어 다양한 분야에서 활용 가능성이 큽니다. 정치, 데이터 분석, 머신러닝에 관심 있는 분들에게 많은 영감을 줄 수 있는 연구라 생각됩니다.