카테고리 없음

[LLM/정치학] Miller and Jiang (2025) 의원들의 트위터에서의 반민주주의적 언어(ADR) 파악해보기!

Dr. Julia 2025. 3. 31. 02:55

🗣️ [미국 국회의원들의 트위터 발언, 민주주의를 위협하다?]
📌 논문 리뷰: "Congressional rhetoric on Twitter and the crisis of democracy"
📝 Christopher J. Miller & Yucong Jiang (2025)


요즘 뉴스나 SNS에서 “민주주의 위기”라는 말, 자주 보이지 않나요? 미국뿐 아니라 세계 곳곳에서 이런 우려가 커지고 있어요. 특히 미국의 경우, 정치인들이 대중을 향해 어떤 말을 하는지, 그 말이 민주주의를 지키는 데 도움이 되는지, 아니면 무너뜨리는지를 잘 살펴봐야 할 시점입니다.

오늘 소개할 논문은 미국 정치학자 Christopher J. Miller와 컴퓨터 과학자 Yucong Jiang이 함께 쓴 연구로, 2020년부터 2022년 중반까지 미국 국회의원들이 트위터에서 한 발언을 분석하면서 "반(反)민주주의적 언어"의 사용 실태를 파헤친 흥미로운 연구입니다.


1. 연구의 시작점: 문제의식은?

이 연구가 시작된 배경은 간단하면서도 매우 심각한 질문에서 출발합니다.

"정말 미국의 정치인들은 민주주의를 지키고 있는 걸까?"
우리가 흔히 생각하기에 국회의원, 즉 정치 엘리트들은 국민보다 더 전문적이고 일관된 정치 이념을 바탕으로 행동할 것 같죠. 아무리 정당 간에 대립이 있어도, 최소한 헌법이나 제도, 절차 같은 민주주의의 기본 틀은 지키리라 기대하게 됩니다.

그런데 최근 미국 사회에서 나타나는 현상들을 보면, 꼭 그렇지만은 않아 보입니다.


🔍 민주주의가 흔들리는 여러 조짐들

저자들은 최근 정치학과 언론에서 반복해서 등장하는 몇 가지 핵심 개념들을 소개합니다. 예를 들어:

  • 감정적 양극화(Affective Polarization):
    사람들 사이의 정치적 갈등이 "정책"보다는 "감정"과 "정체성" 기반으로 갈라지는 현상이에요. 즉, 상대 당이 무엇을 주장하는지는 상관없이, 그냥 그들이 싫어서 반대하는 거죠.
  • 레짐 균열(Regime Cleavage):
    원래는 경제정책이나 세금 같은 ‘정책’에 대해 갈라졌던 정치적 의견이,
    → 점점 “우리 vs. 그들”이라는 정체성 문제로 바뀌고,
    → 나중엔 “이 제도 자체가 정당한가?”라는, 민주주의 시스템의 근본을 부정하는 방향으로 이어지는 패턴을 말해요.
  • 부정선거 음모론, 시스템 불신, 엘리트 혐오 등은 이런 흐름의 대표적인 예입니다.

👥 그럼 유권자만 문제가 있는 걸까?

기존 연구에서는 이런 ‘감정적 양극화’나 민주주의에 대한 불신을 일반 유권자의 문제로 많이 다뤘습니다.
예컨대, 많은 시민들은 정당의 이념 차이를 잘 모르고, 그냥 “내가 싫어하는 당은 무조건 나쁘다”는 식의 판단을 내린다는 것이죠.

하지만 이 논문은 질문을 바꿔 봅니다.

"정치 엘리트, 특히 미국 국회의원들도 똑같이 반민주적인 언어를 사용하고 있는 건 아닐까?"

사람들은 종종 정치인을 “더 똑똑하고 이념적으로 일관된 존재”라고 생각하지만, 실제로는 그들도 재선, 주목도, 대중의 반응 같은 것에 영향을 받으며 발언 스타일이 달라질 수 있습니다.


💡 새로운 의문 제기

그래서 저자들은 이런 세 가지 핵심 질문을 던집니다:

  1. 미국 국회의원들도 정말 반민주주의적 언어를 쓰고 있을까?
    (그렇다면 민주주의 시스템 안에서 일하는 사람들이, 그 시스템 자체를 부정하고 있는 셈이죠.)
  2. 이런 언어 사용은 시간이 지나면서 어떻게 변했을까?
    (예: 2020년 대선, 1월 6일 의사당 폭동 같은 사건 전후로 달라졌을까?)
  3. 이런 언어를 주로 사용하는 의원들의 공통점은 무엇일까?
    (정당, 성별, 상·하원 여부, 정치 경력 등과 관련 있을까?)

📚 풍부한 이론적 배경(Literature Review)

이 질문들을 다루기 위해, 저자들은 기존의 수많은 정치학 연구들을 바탕으로 문제의식을 쌓아갑니다. 여기에는 특히 다음과 같은 이론들이 중요하게 등장해요:

  • 민주주의 후퇴(Democratic Backsliding):
    겉으로는 선거를 하고 제도를 유지하는 것처럼 보이지만, 실제로는 점점 자유, 공정성, 다원주의 같은 민주주의의 핵심 가치가 무너지는 현상입니다.
  • 네거티브 파티잔십(Negative Partisanship):
    나의 정당을 좋아해서가 아니라, 상대 당이 너무 싫어서 정치에 참여하는 현상. 이로 인해 정당 간 협력은 줄고, 극단적인 언어와 행동이 늘어나죠.
  • 음모론의 확산과 정당성 약화(Delegitimization):
    “딥스테이트가 조작하고 있다”, “언론은 전부 가짜다”처럼, 민주주의의 핵심 제도나 과정을 신뢰하지 못하게 만드는 언어가 반복되면서, 전체 시스템에 대한 믿음이 약화됩니다.
  • 엘리트의 책임:
    기존에는 정치 엘리트들이 오히려 시민보다 더 절제된 태도와 정당한 논리를 통해 제도를 유지하고 있다는 믿음이 있었지만, 요즘은 엘리트도 SNS를 통해 더 자극적이고 분열적인 언어를 사용하는 경향이 강해지고 있습니다.

결국 이 연구는 기존 연구들이 시민의 극단화에만 주목하는 틀에서 벗어나, 정치 엘리트의 책임과 역할에 초점을 맞춥니다.

그리고 미국 국회의원들이 트위터에서 실제로 어떻게 말하고 있는지를 데이터 기반으로 분석해보면,
민주주의 위기가 단지 유권자의 문제가 아니라, 제도 안에 있는 사람들로부터 비롯된 것이기도 하다는 사실을 확인할 수 있죠.


💬 요약하자면,
이 논문은 “요즘 정치인 말이 너무 험하다”는 단순한 인상에서 시작한 것이 아니라,
민주주의의 구조 자체가 흔들릴 수 있는 위험한 언어의 사용
정치학 이론과 데이터 분석을 통해 정밀하게 들여다본 연구입니다.


2. 데이터를 어떻게 수집했을까?

📊 미국 국회의원 트윗 100만 개를 전수 분석하다!

이 논문의 또 다른 강점은 엄청나게 방대한 데이터셋을 가지고 분석을 했다는 점이에요. “한 두 명의 말”이 아니라, 미국 국회의원 전체의 언어 패턴을 살펴본 거죠.

🔍 구체적으로 어떻게 데이터를 수집했을까?

  • 분석 대상:
    2020년 1월 1일부터 2022년 6월 30일까지 미국 상·하원의원 528명의 공식 트위터 계정
  • 분석 기간:
    팬데믹, 2020 대선, 1월 6일 의사당 폭동 등 미국 정치 격변기 전체를 포함한 시기 (총 2년 반)
  • 총 트윗 수:
    104만 개의 트윗 (1,048,515개)
    문장 수로는 200만 개가 넘고, 단어 수로는 무려 3,300만 개가 넘는 대규모 텍스트 데이터!
  • 선별 기준:
    의원 본인의 공식 계정에서 직접 쓴 트윗만 분석했어요. 선거용 계정, 캠페인 계정, 보좌관이 운영하는 계정 등은 제외했습니다. 즉, 국회의원이라는 직책을 가지고 '공식적으로' 한 발언만 포함된 겁니다.

💻 수집 방법과 구성

  • 수집 도구: Python을 활용한 데이터 크롤링 코드 (공개됨!)
  • 트윗별 정보: 트윗 본문, 작성 날짜, 해시태그, 리트윗 수 등 메타데이터 포함
  • 의원별 정보:
    • 소속 정당
    • 성별
    • 하원/상원 구분
    • 주(state)
    • 선출 연도 등 다양한 배경정보도 함께 수집해 분석에 활용

📂 이 모든 데이터를 엑셀 파일로 정리해서 공개했기 때문에, 다른 연구자들도 자유롭게 쓸 수 있어요.

👉 요약하면, 이 연구는 그냥 일부 사례를 모아 분석한 것이 아니라, 미국 국회의원들이 공식적으로 한 모든 트윗을 전수 수집해서 데이터로 만든 것이에요. 덕분에, 이 연구는 “누가 그랬다더라” 하는 느낌이 아니라, 실제 전체 트렌드를 객관적으로 보여줄 수 있는 기반을 갖추고 있습니다.

 


3. ‘반민주주의적 언어(ADR)’는 어떻게 정의했을까?

🧠 단순한 ‘막말’이 아니다! 민주주의를 침식시키는 언어를 어떻게 찾아냈을까?

이 논문의 가장 중요한 핵심은 바로 **‘반민주주의적 언어(anti-democratic rhetoric, ADR)’**가 무엇이며, 그것을 어떻게 과학적으로 측정할 수 있느냐에 대한 정교한 접근이에요.

그동안 ‘반민주적’이라는 말은 뉴스나 칼럼에서는 많이 쓰였지만, 정량적으로 측정하거나, 명확한 기준을 세워서 분석한 연구는 거의 없었습니다. 이 논문은 그 빈자리를 채우며, ADR을 실증적으로 정의하고, 측정 가능한 형태로 정리한 매우 중요한 시도입니다.


🧩 먼저, 왜 자동화된 AI 모델이 아닌 사람이 만든 사전을 썼을까?

요즘 텍스트 분석하면 보통 인공지능(AI)이나 기계학습(머신러닝)을 많이 떠올리죠. 그런데 이 연구에서는 **AI 대신 사람이 직접 만든 단어 사전(dictionary/lexicon)**을 기반으로 분석했어요.

그 이유는 간단해요:

  • AI는 “반민주주의”라는 추상적 개념을 스스로 이해하기 어렵고,
  • 모호한 표현이나 맥락을 오해할 수 있으며,
  • 무엇이 왜 문제인지 설명이 불가능한 '블랙박스'가 되기 쉽기 때문입니다.

연구진은 오히려 사람이 직접 이론과 데이터를 바탕으로 만든 정밀한 단어 사전과 규칙이 더 적절하다고 판단했습니다.


🛠️ ‘ADR 사전’은 어떻게 만들었을까?

연구자들은 기존 정치학, 커뮤니케이션, 민주주의 연구들을 폭넓게 참고하고, 동시에 100만 개 트윗의 실제 텍스트를 분석하면서 사전을 구성했습니다.

총 6단계의 과정을 거쳤어요.


✅ STEP 1. 목표 정의

ADR이란 무엇인가?

연구진은 ADR을 이렇게 정의했어요:

“민주주의 제도, 규범, 정치 절차, 참여자, 혹은 민주주의 자체의 정당성을 약화하거나 부정하는 언어적 표현

즉, 단순한 정치적 비판이나 정책 반대가 아니라, ‘상대방 자체를 부정’하거나, ‘제도와 절차를 믿을 수 없다고 말하는’ 표현을 말합니다.


✅ STEP 2. 텍스트 수집

  • 앞서 설명했듯이, 미국 국회의원들이 트위터에 올린 100만 개 이상의 공식 트윗을 수집해서 분석 대상으로 삼았습니다.

✅ STEP 3. 전처리 작업

  • 영어에서 자주 나오는 불용어(stopwords)(예: the, and, of...) 제거
  • 철자 오류 교정, 단어 형태 통합(예: “voting”, “voted” → “vote”)
  • 텍스트에서 의미 있는 단어들만 추출할 수 있도록 정제

🔨 STEP 4. 초기 사전 구축

📚 이론 + 🧾 실제 트윗 데이터 + 🤖 텍스트 마이닝 → ADR 단어 후보를 모으는 단계

이 단계는 ‘ADR 사전(lexicon)’의 초안, 즉 잠정적으로 반민주주의적 언어로 판단될 수 있는 단어 후보군을 처음으로 만드는 작업이에요. 여기에는 두 가지 접근법을 병행했습니다:

1️⃣ 이론 기반의 ‘사고 중심(deductive)’ 접근

정치학, 커뮤니케이션, 민주주의 후퇴, 음모론, 정체성 정치 등에 관한 기존 연구를 광범위하게 참고하여,
문헌 속에서 반민주주의와 관련 있는 표현이나 개념을 추출합니다.

예를 들어, 다음과 같은 키워드를 발견하죠:

  • “stop the steal” → 선거 결과의 정당성 부정
  • “fake news” → 언론의 제도적 신뢰성 훼손
  • “deep state”, “cabal” → 음모론적 구조 상정
  • “real Americans” → 일부만을 ‘진짜 국민’으로 간주하는 민족주의 언어

특히 정치 엘리트의 언어 속 민주주의 침식을 다룬 이론이 부족했기 때문에,
음모론, 인종주의, 반제도주의, 감정적 양극화에 관한 연구들을 논리적으로 연결해가며
ADR에 해당할 수 있는 표현들을 하나하나 발굴했어요.

✨ 예: “democracy is a sham” / “a republic, not a democracy”
→ 이런 말은 논쟁이 아닌 ‘제도 자체의 부정’이기 때문에 ADR로 간주됩니다.


2️⃣ 데이터 기반의 ‘경험적(empirical)’ 접근

이론만으로는 현실에서 쓰이는 표현의 다양성을 다 담을 수 없어요.
그래서 연구진은 실제 트윗 데이터(약 100만 개)를 기반으로 **텍스트 마이닝(text mining)**도 함께 수행합니다.

🔎 구체적으로는 다음과 같은 방법을 사용했어요:

  • 단어 빈도 분석: 가장 많이 등장한 단어들을 리스트업
    • ex) “fraud”, “traitor”, “rigged”, “stolen”, “patriot”, “radical” 등
  • 동시출현 분석 (co-occurrence): 특정 단어들이 같이 등장하는 패턴을 확인
    • 예: “socialist”와 “agenda”가 자주 붙어 나오면 → “socialist agenda”라는 프레이즈로 사전에 등록
  • 구문 패턴 분석 (n-gram analysis):
    “steal the election”, “rigged vote”, “protect real America” 같은 연속어구(phrase)를 후보로 추출
  • 구조적 주제 모델링 (STM):
    WordStat의 통계 기반 주제 탐색 기능을 통해 **ADR 관련 의미군(cluster)**이 자동적으로 형성되는지를 확인

이 과정을 통해, 트위터에서 실제로 많이 쓰이는 은유적 표현, 신조어, 비꼼, 속어 등을 수집할 수 있었어요.
예: “woke mob”, “leftist radicals”, “great replacement”, “globalist puppet”, “American Taliban” 등

📌 포인트: ADR 언어는 꼭 ‘직설적’일 필요는 없어요.
오히려 교묘하고 감정적이고 은유적인 표현이 많기 때문에, 텍스트 마이닝을 통한 발굴이 핵심입니다.


🧪 STEP 5. 사전 정제 & 맥락 규칙 적용

📏 단어를 ‘그냥’ 포함했다고 ADR로 보지 않는다!
진짜 의미 있는 사용만 걸러내기 위한 고난도의 ‘컨텍스트 조정’ 작업

STEP 4에서 추출한 초안 사전은 아주 중요한 출발점이지만, 그대로 사용하면 정확도가 낮고 오류가 많을 수 있어요.
그래서 STEP 5에서는 그 사전을 ‘실제 맥락에 맞게’ 다듬고, 오탐(false positives)을 줄이는 고급 필터링 작업을 진행합니다.


🧹 1. 의미가 애매한 단어 제거

어떤 단어는 맥락에 따라 의미가 크게 달라져요.
예: “sanctuary”

  • “sanctuary church” → 종교적 의미
  • “sanctuary city” → 이민자 보호 도시 → ADR 가능성 있음

이런 단어는 자동 분류가 어려우므로,

  • 문맥 규칙을 붙이거나
  • 의미가 너무 모호한 경우엔 아예 제거했습니다.

🔄 2. 단어 간 거리 규칙 (Boolean Proximity Rules) 설정

두 단어가 특정 거리 이내로 같이 나올 때만 ADR로 분류하는 규칙을 만들었습니다.

예를 들어:

  • “climate”만으로는 중립적이지만
  • “climate”와 “hoax”가 5단어 이내에 같이 있을 경우 → 음모론으로 분류

또 다른 예:

  • “America-hating”이라는 단어가 있을 때
  • “America-hating”이 “Chinese”나 “Iranian”과 함께 등장하지 않으면 ADR로 보지 않음

🧱 3. 상위/하위 범주 조정 및 중복 방지

  • 각 단어를 **하나의 ADR 카테고리(4가지 중 하나)**에만 포함시켜 중복 계산을 방지했습니다.
    (예: "deep state"는 음모론 카테고리에만, 민족주의 카테고리에는 넣지 않음)
  • 각 상위 카테고리 아래에 **세부 하위 카테고리(총 18개)**를 만들어
    구체적인 단어군을 정리했습니다.
    예:
    • Delegitimization 아래에 “media attacks”, “election delegitimization”, “opponent vilification” 등
    • Conspiracism 아래에 “deep state”, “anti-vaccine”, “censorship conspiracy” 등

🔁 4. 유사어/동의어/은어/신조어 정리

  • 같은 의미를 가진 다양한 표현을 하나의 개념 아래로 묶었습니다.
    예: “radical left”, “far-left extremists”, “leftist mob” → 같은 민족주의/제도부정 의미로 통합
  • 인터넷 속어, alt-right 특유의 단어(예: “groomer”, “based”, “NPC”)도 포함
    → 논문에서는 Reddit의 극우 커뮤니티, 트럼프 지지자 트윗 패턴 등에서 참고함

🔍 5. 트윗 원문 문맥에서 확인 (KWIC spot-checking)

  • WordStat의 KWIC(Keyword-in-Context) 기능을 활용해,
    단어가 실제로 어떤 문맥에서 쓰였는지 수백 건 이상을 눈으로 검토했습니다.
  • 예: “fraud”가 선거 맥락에서 나왔는지, 아니면 다른 맥락인지 수작업으로 확인
  • 이 과정에서 발견된 잘못된 탐지 사례는 전부 수정하거나, 필터 조건을 강화했습니다.

📈 최종 점검: 얼마나 정확했을까?

  • 완벽한 자동 분류는 불가능하지만,
    연구진은 **오탐률(false positive rate)**이 약 10~20%로 수렴될 때까지 조정했어요.
  • 중요한 건, 오류가 특정 정당이나 성향에 편향되지 않도록 설계했다는 점입니다.
    (오탐의 대부분은 중립적인 문장이나 컨텍스트 오류였고, 정치적 왜곡은 없음)

✨ 정리하자면:

  • STEP 4에서는 이론과 데이터를 바탕으로 반민주적 언어 후보 단어를 최대한 많이 수집하고,
  • STEP 5에서는 그 단어들을 정확하게 작동하는 필터로 정제하여,
    트윗에서 실제로 민주주의를 해치는 표현만 감지할 수 있도록 만들었습니다.

👉 이 과정을 통해 구축된 ‘ADR 사전’은 단순 키워드 수집이 아니라,
정치 커뮤니케이션 이론 + 실제 데이터 + 소프트웨어 기술 + 인간의 직관이 결합된 복합적 도구라고 할 수 있어요.


4. 주요 발견: 어떤 결과가 나왔을까?

📈 누가, 언제, 얼마나 민주주의를 위협하는 언어를 사용했나?

앞서 설명한 ‘반민주주의적 언어(ADR)’ 사전을 바탕으로, 연구진은 총 100만 개 이상의 국회의원 트윗을 분석했습니다. 그리고 그 결과, 정말 놀라운 사실들이 드러났습니다.


🧮 전체 통계 요약

  • 총 트윗 수: 1,048,515개
  • 그중 ADR이 감지된 트윗: 약 52,000개 (전체의 5%)
  • 총 감지된 ADR 인스턴스: 63,648건 (어떤 트윗은 여러 카테고리의 ADR을 동시에 포함)
  • 평균 트윗 길이: 31.7단어
  • 전체 단어 수: 3,319만 개

📊 핵심 발견 1: 공화당 의원이 ADR을 훨씬 더 많이 사용

  • 공화당 의원 평균: ADR을 10,000단어당 36.15번 사용
  • 민주당 의원 평균: ADR을 10,000단어당 9.02번 사용
    → 즉, 공화당이 민주당보다 약 4배 더 많이 사용했습니다.

🔥 특히 차이가 컸던 분야:

  • 음모론적 언어: 공화당 > 민주당, 무려 5배 차이
  • 민족주의적 언어: 공화당 > 민주당, 거의 25배 차이

📊 핵심 발견 2: 남성 의원이 여성 의원보다 더 많이 사용

  • 남성 의원이 ADR을 사용하는 빈도는 여성보다 약 1.7배 더 많았고,
  • 민족주의·음모론·권위주의 언어 모두에서 남성이 더 자주 사용했습니다.

❗ 하지만 예외도 존재:
일부 여성 의원(예: 마조리 테일러 그린)은 ADR 사용량 상위권에 이름을 올렸습니다.


📊 핵심 발견 3: 시간이 지날수록 ADR 사용이 증가했다

연구진은 분석 기간을 세 시기로 나누었습니다:

시기기간
선거 전 2020년 1월 ~ 11월 3일
선거 후~1/6 폭동 전 2020년 11월 4일 ~ 2021년 1월 5일
1/6 이후 2021년 1월 6일 ~ 2022년 6월 30일
  • 선거 직후, ADR 사용이 급증
  • 1월 6일 의사당 폭동 이후에도 감소하지 않고 유지되며 오히려 일상화됨
  • 특히 민족주의적 언어는 1/6 이후 무려 8배 증가

📊 핵심 발견 4: 극단적 사용자는 일부에 집중되어 있다

  • 전체 의원 중 약 66%는 2년 반 동안 100번 이하로 ADR 사용
  • 하지만 상위 41명의 의원(약 8%)이 전체 ADR의 37.8%를 차지
    → ADR 사용이 소수의 의원에게 집중된 편향된 분포

📊 각 ADR 카테고리별 요약

카테고리특징정당별 비율
제도 부정 (Delegitimization) 가장 많이 쓰인 카테고리, 상대당·제도·언론을 공격 공화당이 민주당보다 2배 이상
음모론 (Conspiracism) 비논리적 주장, 딥스테이트, 조작 선거 등 공화당이 민주당보다 거의 5배
민족주의 (Ethno-nationalism) ‘진짜 미국인’, 이민자 혐오 등 공화당이 민주당보다 무려 25배
권위주의 (Autocracy) 강한 리더 강조, 민주적 절차를 폄하 상대적으로 사용 빈도 낮지만 공화당이 압도적으로 많음

🧵 대표 트윗 예시 (익명 처리 없이 실명 인용)

  • Rep. Mo Brooks (R-AL):
    “NYC passes law to let 100,000s of noncitizens vote… Want to steal for a living?”
    → ADR 세 가지가 동시에 들어간 전형적 예시
  • Rep. Jody Hice (R-GA):
    “Marxists rioting in the streets… pick a side. Stand up. Speak out.”
    → 음모론 + 민족주의 + 권위주의 언어
  • Rep. Bill Pascrell (D-NJ):
    “The Republican war on democracy is not abating…”
    → 민주당 의원 중 ADR 사용량이 가장 많은 사례

결론적으로,

📌 ADR 사용은 점점 늘어나고 있고,
📌 공화당 의원, 남성 의원, 2020 대선 직후 시기에서 두드러지게 나타났으며,
📌 일부 극단적 사용자의 영향력이 크다는 점에서
👉 이 언어들이 점차 정치적 '정상(normal)' 언어로 자리잡아가는 위험한 변화임을 보여줍니다.


5. 방법론: 어떻게 분석했을까?

🧪 데이터는 방대하고 복잡한데, 어떻게 정밀하게 분석했을까?

📦 분석 데이터

  • 텍스트 단위: **1 트윗 = 1 문서(document)**로 처리
  • 각 트윗에는 트윗 내용뿐 아니라 다음 정보도 함께 저장:
    • 작성 날짜
    • 의원 이름, 정당, 성별, 소속 주, 상/하원, 임기
    • 해시태그, 리트윗 수, 답글 수 등 메타데이터

💻 사용 도구

  • WordStat 9: 텍스트 분석 및 KWIC(문맥 내 키워드) 기능 제공
  • Python: 데이터 수집 및 전처리용
  • 분석 단위는 단어, 문장, 트윗 전체 등 다양한 레벨로 가능

🛠️ 분석 절차 요약

1️⃣ 텍스트 전처리

  • 맞춤법 교정, 불용어 제거, 단어 통합(lemmatization), 표준화 작업

2️⃣ ADR 사전(lexicon) 적용

  • 403개 단어·문구로 구성된 4개 상위 카테고리(18개 하위 카테고리) 사전을 활용
  • 각 트윗을 스캔하여 ADR 단어가 있는지 탐색하고 분류

3️⃣ 문맥 규칙 활용

  • 단어가 특정 조건에서만 ADR로 간주되도록 필터링
    (예: “fraud” + “election” 함께 등장할 때만 음모론으로 분류)

4️⃣ 통계 분석 및 시각화

  • 사용 빈도를 정당, 성별, 시기, 지역, 의회 종류(상·하원)별로 비교
  • 정규화(normalization):
    의원마다 트윗 수가 다르기 때문에, 10,000단어당 몇 번 ADR이 나오는지를 기준으로 통일

5️⃣ 신뢰도 검증 (Validation)

  • 수작업 키워드 검토(KWIC)로 오탐지 제거
  • 무작위 샘플 반복 분석 (cross-validation)으로 일관성 확인
  • 오탐률 10~20% 이내 유지

📌 주의할 점:

  • 이 분석은 표본이 아닌 전체 집단(Census) 분석이에요.
    → 따라서 통계적 p-value(유의성 검정)는 사용하지 않고, 실제 사용량 차이를 그 자체로 해석합니다.

✨ 왜 이 방법론이 의미 있을까?

기존 연구들은 특정 인물(예: 트럼프)만 다루거나, 아주 짧은 기간을 다룬 경우가 많았어요.
하지만 이 논문은:

  • 미국 국회의원 전체
  • 2020년 대선부터 2022년까지의 장기적 흐름으로,
  • 고도로 정교한 분류 체계와 통제 변수를 사용해
    민주주의를 위협하는 언어의 패턴을 체계적으로 추적한 매우 수준 높은 연구입니다.

6. 왜 중요한가?

이 연구는 단순히 누가 더 “센 발언”을 많이 했는지를 측정하는 게 아닙니다.
👉 민주주의를 파괴할 수 있는 언어의 사용이 점점 일상화되고 있다는 것을 데이터로 보여준다는 데 의미가 있습니다.

무엇보다 이 발언들이 정책 논쟁이 아니라 정체성 공격이나 제도 불신, 음모론 강화, 소수자 배척으로 이어질 때, 민주주의 자체의 기반이 흔들릴 수 있다는 걸 경고하고 있어요.


✍️ 마무리: 앞으로는?

이 연구는 “정치인의 말”이 얼마나 중요한지를 다시 생각하게 합니다.
트위터 같은 SNS는 과거보다 훨씬 더 빠르고 직접적인 방식으로 대중에게 영향을 미치죠.

✅ 그래서 정치인의 언어를 감시하고, 기록하고, 분석하는 작업은
단지 '말'을 넘어서 민주주의 자체를 지키는 일일 수 있습니다.