[논문리뷰] Pereira et al (2024) 텍스트로 정치적 양극화를 측정하는 방법?
현대 사회의 이념적 갈등, 예를 들어 미국 국회의사당 폭동이나 영국의 브렉시트와 같은 사건들은 정치적 양극화(political polarization)의 증가를 상징적으로 보여줍니다. 이러한 양극화를 더 깊이 이해하고 측정하기 위해, Catarina Pereira, Raquel da Silva, Catarina Rosa의 논문 "How to measure political polarization in text-as-data? A scoping review of computational social science approaches"는 컴퓨테이셔널 사회 과학(CSS) 접근법을 활용하여 텍스트 데이터를 분석하는 방법론들을 체계적으로 정리합니다. 이 글에서는 해당 논문의 주요 내용을 리뷰하며, 각 방법론의 특징과 한계, 그리고 제시된 연구 방향을 자세히 살펴보겠습니다.
정치적 양극화와 CSS 방법론
CSS(computational social science)는 컴퓨터 과학과 통계학을 결합하여 사회 현상을 분석하는 학문 분야입니다. 특히 텍스트 데이터를 기반으로 정치적 양극화를 측정하는 CSS 방법론은 방대한 데이터를 효율적으로 처리할 수 있다는 장점 덕분에 주목받고 있습니다.
정치적 양극화란 사람들이 특정 이념에 대해 얼마나 극단적으로 다른 입장을 가지는지를 의미하며, 이는 정치적 정당 간의 이념적 거리나 특정 이슈에 대한 의견 차이로 나타납니다. 기존에는 설문조사나 투표 분석을 통해 양극화를 측정했지만, 이런 접근법은 정적인 데이터를 사용하며 시간적 변화나 플랫폼 간의 상호작용을 포착하지 못한다는 한계가 있었습니다. 이를 보완하기 위해 CSS는 트위터, 의회 연설문 등 텍스트 데이터를 기반으로 다양한 모델을 적용하고 있습니다.
양극화 측정을 위한 4가지 주요 방법론
논문은 텍스트 데이터를 기반으로 한 양극화 측정 방법을 크게 통계 및 매개변수 모델, 분류 모델, 시계열 모델, 군집화 및 스케일링 모델로 구분합니다. 아래는 각 방법론의 주요 특징과 논문에서 논의된 사례들입니다.
1. 통계 및 매개변수 모델 (Statistical and Parametric Models)
통계 및 매개변수 모델은 데이터를 구조적으로 이해하고 이를 기반으로 수학적 가정을 설정하여 양극화를 정량적으로 측정합니다. 주로 단어의 빈도, 분포, 그리고 연관성을 기반으로 데이터를 분석하며, 정당 간의 이념적 차이를 모델링하는 데 중점을 둡니다.
- 핵심 아이디어:
텍스트 데이터를 통계적으로 분석하기 위해 먼저 데이터를 전처리합니다. 여기에는 불필요한 단어(예: 관사, 전치사)를 제거하고, 단어의 어근(예: "increase"를 "increas"로 변환)을 통합하여 같은 의미의 단어를 하나의 항목으로 간주하는 작업이 포함됩니다. 이후 데이터를 이항구(bigram)로 변환하여, 특정 단어 쌍이 특정 정당의 연설이나 이념과 얼마나 자주 함께 사용되는지를 분석합니다. - 예를 들어, Gentzkow, Shapiro, and Taddy (2019)는 미국 의회 연설문에서 민주당과 공화당 연설자가 사용하는 이항구를 비교했습니다. 이들은 각 단어가 특정 정당에 얼마나 자주 사용되는지를 바탕으로 이데올로기 축에서 해당 단어의 극성을 계산했습니다. 데이터의 확률 분포는 다항 분포(multinomial distribution)를 가정하며, 연설자가 단어를 선택하는 방식이 독립적이고 동일한 분포를 따른다고 보았습니다.
- 세부 방법론:
- 데이터 전처리:
- 불용어(stop words) 제거: 의미가 없는 단어를 제거.
- 어근 추출(stemming): 단어의 기본 형태를 유지하여 유사 단어를 통합.
- 낮은 빈도 단어 제거: 드물게 나타나는 단어는 분석에서 제외.
- 이항구 생성:
- 텍스트를 두 단어씩 묶어 데이터 간의 연관성을 분석.
- 매개변수 추정:
- 각 단어 쌍이 특정 연설자 그룹(예: 민주당, 공화당)에 속할 확률 계산.
- 편향 보정:
- Leave-out estimator와 같은 기법으로 데이터 편향 제거.
- 데이터 전처리:
- 해석:
이 모델은 텍스트 데이터의 통계적 특성을 최대한 활용하여 정당 간의 차이를 설명합니다. 특히, 매개변수 추정을 통해 연설자의 단어 선택 경향을 정량적으로 분석할 수 있습니다. 하지만 이러한 과정은 많은 수작업과 도메인 전문 지식이 필요하다는 점에서 한계가 있습니다.
2. 분류 모델 (Classification Models)
분류 모델은 텍스트 데이터를 사전에 정의된 클래스(예: 좌파, 우파)로 분류하는 데 중점을 둡니다. 이는 사전에 코딩된 데이터셋이나 특정 단어 사전을 활용하여 새로운 데이터를 자동으로 분류하는 방식으로 작동합니다.
- 핵심 아이디어:
분류 모델은 텍스트 데이터를 정당, 이념, 또는 감정적 분류(positive/negative)와 같은 특정 클래스에 할당합니다. 초기에는 수동으로 데이터를 코딩하여 "이 텍스트는 어떤 정당을 지지하는가?"와 같은 질문에 답할 수 있는 학습 데이터를 만듭니다. 이후에는 이 데이터를 바탕으로 머신러닝 알고리즘이 새로운 데이터를 자동으로 분류합니다. - Marchal (2021)의 연구는 베이지안 추정 프레임워크를 사용하여 레딧 댓글 데이터를 분류한 사례입니다. 이 연구는 초기에는 댓글을 수동으로 코딩했지만, 이후에는 spaCy를 활용해 "liberal"과 "conservative"와 관련된 단어를 자동으로 확장하여 대규모 데이터셋을 구축했습니다.
- 세부 방법론:
- 수동 코딩:
- 초기 데이터에서 댓글이나 문장을 특정 이념(좌/우)으로 수동 분류.
- 단어 사전 구축:
- 특정 이념과 관련된 단어를 수집하고 확장(예: "liberal" → "libs", "dems").
- 자동화:
- 머신러닝 모델(예: 베이지안 추정)을 활용해 새로운 텍스트 데이터를 분류.
- 정확도 검증:
- 모델이 텍스트를 정확히 분류하는지 평가.
- 수동 코딩:
- 해석:
이 모델은 대규모 소셜 미디어 데이터를 빠르게 처리할 수 있는 강력한 도구입니다. 특히, 특정 주제(예: 선거, 팬데믹)에 대한 온라인 담론의 이념적 분포를 분석하는 데 효과적입니다. 하지만 초기 단계에서의 수동 작업과 단어 사전 구축 과정에서 주관성이 개입될 수 있다는 점이 한계입니다.
3. 시계열 모델 (Timeseries Models)
시계열 모델은 시간의 흐름에 따른 단어 빈도와 패턴의 변화를 분석하여 양극화의 동적 특성을 탐구합니다.
- 핵심 아이디어:
특정 사건(예: 팬데믹, 선거) 전후의 텍스트 데이터를 비교해 시간적 양극화 패턴을 분석합니다. 예를 들어, Jiang et al. (2020)는 COVID-19 관련 트위터 데이터를 사용해 팬데믹이 정치적 양극화에 어떤 영향을 미쳤는지 분석했습니다. - 이 연구는 Temporal Clustering(시간 창 내 군집화)과 Louvain 알고리즘을 사용해 특정 시점에서 양극화된 단어를 추출하고, 시간이 지나면서 어떻게 변화하는지 추적했습니다.
- 세부 방법론:
- 시간 창 정의:
- 특정 기간(예: 한 달, 1년)으로 데이터를 분리.
- 단어 군집화:
- 같은 시점에 자주 등장하는 단어를 그룹화(Temporal Clustering).
- 알고리즘 적용:
- Louvain 알고리즘을 사용해 유사 단어를 소규모 군집으로 분류.
- 변화 추적:
- 특정 사건 전후의 단어 사용 패턴 변화 분석.
- 시간 창 정의:
- 해석:
이 모델은 시간의 흐름을 포함하므로 사건 중심적 분석에 적합합니다. 예를 들어, 팬데믹 이전과 이후에 사람들이 사용하는 단어가 어떻게 변화했는지, 그리고 이러한 변화가 특정 정당이나 이념과 연관이 있는지를 분석할 수 있습니다.
4. 군집화 및 스케일링 모델 (Clustering and Scaling Models)
군집화 및 스케일링 모델은 데이터 내 단어들의 관계를 탐구하여 이념적 거리와 양극화를 정량적으로 측정하고 시각적으로 표현하는 방법입니다. 이 모델은 단어 간의 유사성을 기반으로 데이터 내 숨겨진 패턴을 찾아내는 데 중점을 둡니다. 단순히 단어 사용 빈도를 분석하는 것에 그치지 않고, 단어 간의 구조적 관계와 이념적 차이를 탐구하는 데 효과적입니다.
핵심 아이디어
- 군집화 (Clustering):
군집화는 데이터를 사전에 정의된 클래스 없이 유사한 패턴을 가진 그룹으로 나누는 비지도 학습(unsupervised learning) 방법입니다. 단어 간 거리를 계산해 비슷한 단어를 하나의 그룹으로 묶습니다. 이 과정에서 단어 간의 유사성은 벡터 공간 내에서 측정되며, 유사성이 높은 단어들이 같은 군집에 속하게 됩니다. - 스케일링 (Scaling):
스케일링은 단어를 저차원 공간(latent space)에 매핑하여 단어 간의 관계를 시각적으로 나타내는 방법입니다. 고차원의 텍스트 데이터를 2차원 또는 3차원으로 축소해 데이터의 이념적 분포를 분석합니다. 이 과정에서는 단어 간의 "거리"를 계산하여, 서로 가까운 단어들이 유사한 맥락이나 이념적 연관성을 가진 것으로 간주됩니다.
세부 방법론
- 로그 오즈(log odds) 계산
- 특정 단어가 민주당 또는 공화당 연설에서 얼마나 자주 등장하는지를 비교합니다.
- 예를 들어, 단어 A가 민주당 연설에서 자주 등장하고 공화당에서는 드물게 등장한다면, 이 단어는 민주당과 더 밀접하게 연관된 것으로 판단됩니다.
- 로그 오즈 공식:
- 로그 오즈 값이 양수이면 공화당에, 음수이면 민주당에 더 가까운 단어로 해석됩니다.
- PKL (Partial Kullback-Leibler Divergence) 적용
- 단어의 사용 빈도와 이념적 연관성을 결합하여 단어의 극성을 측정합니다.
- PKL은 단어 간 정보 손실을 최소화하면서 단어의 차별성을 계산하는 데 사용됩니다.
- 의의: 로그 오즈 계산만으로 설명되지 않는 단어의 이념적 차이를 PKL을 통해 보완합니다.
- Word2Vec을 활용한 단어 벡터화
- 텍스트 데이터를 벡터로 변환하여 각 단어를 고차원 공간에서 표현합니다.
- Word2Vec은 단어의 주변 맥락(context)을 학습하여 유사한 맥락에서 사용되는 단어를 유사한 벡터로 표현합니다.
- 예를 들어, "liberal"과 "democrat"은 비슷한 맥락에서 자주 사용되기 때문에 Word2Vec 벡터 공간에서 가까운 거리에 위치하게 됩니다.
- 차원 축소 및 시각화
- 단어 벡터를 저차원 공간으로 축소하여 시각적으로 표현합니다(예: t-SNE, PCA).
- 차원 축소 기법은 고차원 데이터를 2D 또는 3D 공간에 매핑하면서 주요 패턴을 유지합니다.
- 시각화 결과를 통해, 예를 들어 민주당과 공화당 연설에서 사용된 단어들의 군집이 얼마나 서로 분리되어 있는지 확인할 수 있습니다.
- 코사인 유사도를 활용한 단어 간 거리 계산
- 코사인 유사도는 두 벡터 간의 각도를 계산하여 단어 간의 유사성을 측정합니다.
- 값이 1에 가까울수록 두 단어가 유사한 의미를 가지며, 값이 0에 가까울수록 관련성이 낮습니다.
- 이를 기반으로 단어 간의 군집을 형성하고, 동일 군집 내 단어들은 같은 이념적 맥락을 공유한다고 판단합니다.
적용 사례: Sloman et al. (2021)
- 단어의 군집화 및 스케일링:
이 연구는 민주당과 공화당에서 자주 사용되는 단어를 로그 오즈와 PKL을 통해 분석한 뒤, Word2Vec을 사용해 단어를 저차원 공간으로 매핑했습니다. 이후 코사인 유사도를 활용해 단어 간의 관계를 군집화하여 정치적 양극화의 이념적 패턴을 시각화했습니다. - 예시:
단어 "healthcare"는 민주당 연설에서 주로 사용되며, "tax cut"은 공화당 연설에서 자주 등장합니다. 이 두 단어는 Word2Vec 공간에서 멀리 떨어져 있으며, 각각 다른 군집에 속합니다. 이를 통해 두 정당 간의 정책적 차이를 명확히 보여줍니다.
장점
- 정교한 단어 간 관계 분석:
군집화 및 스케일링은 단순히 단어 사용 빈도를 분석하는 것을 넘어, 단어 간의 관계를 정량적으로 평가할 수 있습니다. - 이념적 거리 시각화:
데이터 내 숨겨진 이념적 패턴을 시각적으로 표현해 연구자와 대중이 이해하기 쉽게 만듭니다. - 비지도 학습의 유연성:
사전에 정의된 클래스가 없어도 데이터 내 자연스러운 그룹화를 발견할 수 있습니다.
한계
- 결과의 민감성:
군집화와 차원 축소 기법의 선택에 따라 결과가 달라질 수 있어 모델의 신뢰성에 영향을 미칠 수 있습니다. - 복잡한 모델링 과정:
Word2Vec과 같은 벡터화 및 차원 축소 과정은 고도의 기술적 전문성을 요구합니다. - 이념적 맥락의 손실:
텍스트 데이터의 단어 관계를 수학적으로 단순화하면서 일부 맥락 정보가 손실될 가능성이 있습니다.
CSS 방법론의 장점과 한계
장점:
- 대규모 데이터 분석 가능: 트위터, 레딧과 같은 소셜 미디어 데이터를 효율적으로 처리.
- 언어 독립적 확장 가능성: 텍스트 모델이 영어뿐만 아니라 다른 언어에도 적용 가능.
- 동적 분석: 시간에 따른 양극화의 변화를 추적.
한계:
- 지역 및 플랫폼 편향: 대부분 미국 중심이며, 플랫폼 간 비교 연구는 부족.
- 복잡성: 데이터 전처리, 모델 구축 과정에서 고도의 기술적 전문성 요구.
- 언어 의존성: 영어 기반 모델이 다른 언어에 비해 높은 성능을 보이는 경향.
미래 연구 방향
- 다중 플랫폼 분석: 트위터와 유튜브 등 여러 플랫폼에서 양극화를 비교 분석.
- 시간적 양극화 심화: 특정 사건이 시간이 지나면서 양극화에 미치는 영향을 심층적으로 분석.
- CSS 방법론의 확대: 더 발전된 머신러닝 기술(예: 딥러닝)을 양극화 분석에 적용.
결론
이 논문은 정치적 양극화를 텍스트 데이터를 기반으로 분석하는 CSS 방법론의 전반적인 흐름과 가능성을 체계적으로 정리한 중요한 연구입니다. CSS 방법론은 점점 더 복잡해지는 사회적 이슈를 분석할 수 있는 도구를 제공하며, 특히 정치적 담론의 양극화를 측정하고 이해하는 데 있어 강력한 가능성을 보여줍니다.
하지만, 현재 연구의 편향성과 한계를 보완하려는 노력이 필요하며, 더 정교한 기술을 활용한 연구가 미래 연구의 핵심이 될 것입니다. CSS 방법론은 단순히 양극화를 측정하는 도구를 넘어, 사회적 갈등을 완화하고 다양한 관점을 이해하는 데 중요한 역할을 할 수 있습니다.