Article Review

[정치학/서베이LLM] Zollinger (2022) 유권자의 “자기 말”을 분석하다 (AJPS)

Dr. Julia 2025. 5. 18. 05:54

이번 포스팅에서는 2024년 American Journal of Political Science에 실린 Delia Zollinger의 논문, “Cleavage Identities in Voters’ Own Words: Harnessing Open-Ended Survey Responses”를 상세히 소개해볼게요. 이 글은 스위스를 사례로 하여 최근 유럽 정치에서 떠오르는 새로운 균열 구조, 특히 보편주의(universalism)와 특수주의(particularism)의 대립이 유권자들의 정체성에 어떻게 반영되는지를 분석한 연구입니다.


🧠 왜 이 연구가 중요한가?

지난 수십 년간 선진 민주주의 국가에서는 단순한 좌우 대립을 넘어서, 보편주의 대 특수주의라는 제2의 정치 축이 점점 중요해지고 있습니다. 전통적인 계급 기반의 정당 지형이 재편되면서, 이념보다는 정체성과 문화가 정치적 태도를 설명하는 중요한 요인이 되었습니다 (Bornschier 2018; Bartolini & Mair 1990; Kriesi et al. 2008). 하지만 실제로 유권자들이 스스로를 “세계시민(cosmopolitan)” 혹은 “애국자(patriot)”처럼 인식하고 있는지는 명확하게 밝혀진 바가 없었습니다. 이 논문은 바로 그 점을 파고들어, 유권자들이 스스로 생각하는 ‘우리 집단(ingroup)’과 ‘다른 집단(outgroup)’에 대한 묘사를 통해 새로운 정치적 정체성이 실제로 존재하는지를 텍스트 분석을 통해 확인합니다.


📚 풍부한 이론적 배경

🎓 정치사회학 관점: 균열 이론 (Cleavage Theory)

이 연구는 Lipset과 Rokkan(1967)의 고전적인 균열 이론을 바탕으로 합니다. 균열 이론에 따르면, 사회구조적 분열은 집단 정체성을 통해 정치적으로 동원되고 고착화됩니다 (Bartolini 2005). 특히, 교육 확장, 직업 구조 변화, 도시화 등 후기 산업사회에서 나타나는 변화가 새로운 정체성 형성을 촉진해왔으며, 이에 따라 신좌파(new left)와 극우(far right) 정당이 각각 다른 계층과 정체성을 대표하게 되었습니다 (Inglehart 1990; Kitschelt 1994; Häusermann & Kriesi 2015).

🧪 사회심리학 관점: 사회정체성 이론

한편, Tajfel과 Turner(1979)의 사회정체성 이론(Social Identity Theory)은 개인이 소속감을 느끼는 집단과 타 집단을 구분하고, 이를 통해 자존감을 확보하려는 심리가 정체성 형성의 핵심임을 강조합니다. 따라서 소외된 집단에 속한 유권자들 역시 자신의 집단을 긍정적으로 묘사하고, 반대 집단에 대한 부정적 이미지를 강화함으로써 자긍심을 유지하려 합니다 (Cramer 2016; Hochschild 2016).


🧪 연구 방법과 데이터: 유권자의 “자기 말”을 분석하다

이 논문에서 가장 혁신적인 지점은, 기존의 닫힌 질문(closed-ended question)이 아닌 열린 질문(open-ended question) 응답을 바탕으로 유권자의 정치적 정체성을 정량적으로 분석했다는 점입니다. 쉽게 말해, 연구자는 “당신과 비슷한 사람은 어떤 사람입니까?”, “당신과 전혀 다른 사람은 어떤 사람입니까?”라는 질문에 대한 유권자의 자유로운 서술을 텍스트 데이터로 수집하고, 이를 텍스트 분석 기법으로 정량화했습니다.

📋 설문 구성

  • 조사 대상: 독일어권 스위스 유권자
  • 조사 시점: 1차는 2018년 9월, 2차는 2020년 9월~12월 사이 (COVID-19 전후 비교 가능)
  • 표본 수: 2018년 1,000명, 2020년 1,664명
  • 조사 방식: 온라인 설문조사 (전문 리서치 회사인 GfK와 Bilendi가 진행)
  • 샘플 조건: 성별과 연령, 교육 수준 기준으로 층화추출 (Quota sampling)
  • 중요 질문:
    • Ingroup 질문: “당신과 생활방식이나 의견이 비슷한 사람들은 어떤 사람들입니까? 어떻게 묘사하겠습니까?”
    • Outgroup 질문: “당신과 전혀 다른 사람, 매우 다른 생활방식과 의견을 가진 사람은 어떤 사람입니까? 어떻게 묘사하겠습니까?”

이 질문들은 설문 초반에 배치되었으며, 참가자에게 특정 정당이나 계층, 이념을 떠올리게 하는 별도의 프레이밍 없이 제시되었습니다. 즉, 참가자의 ‘날것 그대로’의 정체성 인식이 드러날 수 있도록 설계되었습니다. 다만, 일부 참가자에게는 교육 및 지역 불평등에 대한 정보를 사전 제시하는 실험처치가 주어졌으며, 저자는 이 영향을 통제하거나 별도로 분석했습니다.


🧰 데이터 전처리 및 분석 기법: 어떻게 유권자의 말에서 정치 정체성을 수치화했을까?

Delia Zollinger의 이 연구는 전통적인 폐쇄형 문항(예: “찬성합니까, 반대합니까?”) 대신, **유권자의 자발적 응답(open-ended responses)**을 그대로 분석에 사용합니다. 이처럼 구조화되지 않은 자연어 텍스트를 정량적으로 분석하려면, 먼저 텍스트를 수치적으로 다룰 수 있도록 정제하고 전처리해야 합니다. 이 연구에서는 R의 quanteda 패키지를 중심으로 다음과 같은 방식으로 텍스트를 처리합니다.


📁 1단계: 문서 코퍼스(corpus) 구성

가장 먼저, 설문 참여자 한 명의 응답 한 줄을 하나의 ‘문서(document)’로 간주하여, 전체 응답을 코퍼스(corpus) 형태로 정리합니다.

  • 두 개의 코퍼스 생성:
    • Ingroup 코퍼스: “나와 비슷한 사람은 어떤 사람인가요?”에 대한 응답
    • Outgroup 코퍼스: “나와 전혀 다른 사람은 어떤 사람인가요?”에 대한 응답
  • 각각의 코퍼스는 응답자 단위 문서(document)들의 모음으로 구성됨.

🔧 2단계: 텍스트 정제 및 전처리 (Text Cleaning & Preprocessing)

정확한 분석을 위해, 자연어 데이터에 포함된 불필요한 요소들을 제거하고, 형태를 통일시킵니다. 구체적으로 다음과 같은 작업을 수행합니다.

  • 불용어(stopwords) 제거:
    ‘그리고(and)’, ‘하지만(but)’ 같은 고빈도 기능어는 분석에 도움이 되지 않으므로 제거합니다.
  • 구두점(punctuation) 제거:
    마침표, 쉼표, 느낌표 등은 분석 단위에 혼동을 줄 수 있어 삭제합니다.
  • 소문자화(lowercasing):
    ‘Swiss’와 ‘swiss’는 같은 단어로 간주해야 하므로 모든 단어를 소문자로 통일합니다.
  • 토큰화(tokenization):
    각 응답을 구성하는 단어들을 ‘토큰(token)’ 단위로 분리합니다. 예: “open minded cosmopolitan” → [“open”, “minded”, “cosmopolitan”]
  • **어간 추출(Stemming) 혹은 표제어 추출(Lemmatization)**은 명시적으로 언급되지 않았으나, 일반적으로는 단어 형태의 일관성을 위해 사용하는 경우가 많습니다. 이 연구에서는 실제 단어를 그대로 사용하는 방식으로 분석한 것으로 보입니다.

결과적으로, 각 응답은 “단어의 집합”으로 바뀌며, 여기서 각 단어가 얼마나 자주 등장했는지, 어떤 단어가 어떤 응답자 집단에 집중되어 있는지를 수치적으로 파악할 수 있게 됩니다.


📊 3단계: Keyness 통계 분석 (상대빈도 차이 검정)

이제 각 단어가 어떤 정치 집단(예: 극우 지지자, 신좌파 지지자)에서 더 자주 사용되었는지를 검정합니다. 이를 위해 keyness statistic이라는 개념을 사용합니다.

  • 비교 대상:
    • 신좌파 정당 지지자(GPS, SP 등)
    • 극우 정당 지지자(SVP 등)
  • 분석 방식:
    • 카이제곱 통계량 또는 로그비율우도(Log-likelihood ratio)를 이용해, 두 집단 간 각 단어의 출현율 차이가 통계적으로 유의미한지를 검토합니다.
    • 예: ‘patriot’이라는 단어가 SVP 지지자 응답에서 현저히 자주 등장한다면, 이는 ‘특수주의 정체성’을 상징하는 키워드로 분류됩니다.

이 과정을 통해 각 단어가 어느 집단의 정체성과 관련이 있는지를 도출하고, 이후 스케일링(seed word 선정)에도 활용합니다.


📏 4단계: LSS(Latent Semantic Scaling)를 통한 의미 스케일링

Keyness 분석을 통해 후보 단어들을 정한 다음, 이들을 바탕으로 **정치적 정체성의 스펙트럼(보편주의 ↔ 특수주의)**을 정의합니다. 여기서 사용된 기법이 바로 **LSS(Latent Semantic Scaling)**입니다.

LSS의 작동 원리:

  1. Seed Word 설정:
    • 이론 기반(parsimonious):
      • Ingroup 예시: “cosmopolitan”(보편주의) vs “Swiss”(특수주의)
      • Outgroup 예시: “intolerant”, “closed-minded” vs “unadapted”, “nonconformist”
    • 데이터 기반(keyness-driven):
      • Keyness 분석을 통해 새롭게 발견된 단어 10개씩을 양 극단에 배치
    • 혼합형(comprehensive): 이론 기반과 데이터 기반을 결합
  2. 코사인 유사도 기반의 의미 분석:
    • 각 단어를 벡터 공간 상에 위치시키고, seed word들과의 의미적 거리(코사인 유사도)를 계산
    • 이로써 전체 코퍼스 내 등장 단어마다 보편주의-특수주의 점수를 할당
  3. 응답자별 정체성 점수 산출:
    • 각 응답자의 문장에 포함된 단어들의 점수 평균을 계산하여, 개인별 정체성 점수를 수치화
    • 이 점수는 0~1 사이의 연속 값으로 구성됨 (0: 보편주의자, 1: 특수주의자)

📌 응답 스케일링 결과의 분포

  • 평균 응답 길이: 각 문장은 평균 10개 단어로 구성되어 있음 (ingroup: 10.62개, outgroup: 10.02개)
  • 스케일링 적용률:
    • Ingroup 응답: 전체 응답자의 약 62%가 seed word 중 하나 이상을 직접 언급
    • Outgroup 응답: 약 40%만 seed word 포함 → Outgroup은 스케일링이 더 어려움

이는 곧, ingroup 응답이 정체성 인식에서 더 명확하고 빈도 높게 나타나며, 분석 타당성도 더 높다는 점을 시사합니다.


🧪 마무리 요약

정리하자면, 이 연구는 텍스트 데이터를 단순한 단어 모음이 아니라 의미적 스펙트럼 상의 위치로 전환하는 정교한 과정을 거쳐, 유권자의 정치 정체성을 수치화합니다. 핵심은 다음과 같습니다.

  • 단어의 ‘출현 빈도’에만 의존하지 않고, 단어가 어떤 의미의 클러스터에 가까운지를 정량화했다는 점.
  • 단순 분류가 아닌, 연속적이고 스펙트럼적인 인식 차이를 분석할 수 있다는 점.
  • 나아가, 유권자의 “말” 속에 내포된 정체성을 정당 지지, 사회구조, 정책 태도와 연결시켰다는 점.

이 방식은 향후 다른 국가나 문화권에서도 유사한 방식으로 응용이 가능하며, 특히 보편주의–특수주의처럼 감정적·문화적 분열선을 탐색하는 데 매우 강력한 도구가 될 수 있습니다.


🧪 Seed Word 선정 방식: 이론 + 데이터 기반

LSS 분석에서 핵심은 seed word를 얼마나 잘 선정하느냐입니다. 연구자는 다음 두 가지 방식을 병행했습니다.

  1. 이론 기반 (parsimonious): 보편주의와 특수주의를 상징하는 단어를 직접 지정하여 최소한의 단어로 스케일을 형성함.
  2. 데이터 기반 (keyness-based): 실제 응답에서 보편주의자/특수주의자가 자주 쓴 단어 10개씩을 추출해 seed word로 활용함.

또한, 연구자는 위 두 방법을 종합한 comprehensive seed set도 구성하여, 다양한 실험모델(LSS 점수 4종)을 통해 결과를 교차검증했습니다. 특히 2018년도 데이터에서 뽑은 seed word를 2020년 응답에 적용하고, 그 반대도 실험함으로써, 분석의 일반성과 외적 타당성도 강화했습니다.


🧪 정체성 점수 활용 방식

이렇게 산출된 universalism-particularism 점수는 다음과 같이 다방면에서 활용됩니다:

  • 정당 지지 예측: 극우 정당과 신좌파 정당 지지 여부를 예측하는 로지스틱 회귀 분석
  • 사회구조 요인 분석: 교육 수준, 도시-농촌 거주 여부 등과의 상관관계 분석
  • 정책 태도 연계: 이민, EU 통합, 공공투자, 성역할 인식 등과의 연계성 분석
  • 감정적 양극화 분석: in-group 호감과 out-group 혐오감과의 상관성 분석

📌 요약

Delia Zollinger의 방법론은 기존 정치 태도 연구와는 매우 다른 접근법을 보여줍니다. 단순히 “어떤 정책을 지지하느냐”를 묻는 것이 아니라, “나는 누구인가?”를 유권자의 말로부터 추출해냅니다. 특히 자유 응답을 수치화해 정당 지지와 연결시키는 방식은, 정치적 정체성이 단순히 태도의 반영물이 아니라 실제 경험되고 감정적으로 내면화된 집단 귀속감이라는 점을 정량적으로 보여준다는 데 큰 의의가 있습니다.


📊 주요 발견

1. 새로운 정체성의 존재가 확인됨

보편주의적 유권자는 자신을 "열려 있고, 친환경적이며, 활동적인 사람"으로 묘사하는 반면, 특수주의 유권자는 자신을 "근면하고 정직하며 전통을 중시하는 사람"으로 묘사했습니다. 예를 들어:

  • 보편주의적 응답: “활동적이고 채식하는 환경운동가, 열린 사고의 시민”
  • 특수주의적 응답: “조용하고 검소하며, 스위스 전통을 중시하는 성실한 사람”

2. 상대 집단(outgroup)에 대한 부정적 인식

  • 보편주의 유권자들은 "편협하고 인종차별적인 사람들"을 타자로 인식했습니다.
  • 특수주의 유권자들은 "게으르고 잘난 체하며 도시에 사는 엘리트들"을 타자로 인식했습니다.

이러한 묘사는 서로를 뚜렷하게 대비시키는 방식으로 나타났으며, 이는 정체성이 상호 배타적으로 작동함을 보여줍니다.

3. 정당 지지와 강하게 연결

LSS 기반 점수는 유권자가 극우(SVP)나 신좌파(GPS, SP)를 지지하는지 여부를 강하게 예측했습니다. 특히 자신의 집단을 보편주의적 혹은 특수주의적으로 묘사한 사람일수록 해당 극단 정당을 지지할 확률이 크게 증가했습니다. 중도우파 지지자들과는 유의한 연관성이 발견되지 않았습니다.

4. 정체성은 자존감을 위한 심리적 수단

사회구조적으로 ‘패배자’로 분류되는 시골 고졸 유권자들조차도 스스로를 “성실하고 평범한 시민”이라 표현하며 정체성을 긍정적으로 묘사합니다. 이는 사회심리학의 ‘자존감 유지’ 이론과도 일치합니다 (Shayo 2009).


🧩 이 연구가 주는 함의

  1. 정치적 균열(cleavage)은 실제 유권자 인식 속에도 존재한다
    단순히 정치 엘리트의 전략이 아니라, 유권자 개인도 자신을 보편주의자 혹은 특수주의자로 인식하고, 이에 따라 정당을 선택하고 있음을 보여줍니다.
  2. 정체성 기반의 양극화는 서유럽 전반에서 진행 중
    스위스라는 사례를 통해, 교육, 지역, 이념을 중심으로 정당 및 유권자의 재정렬이 얼마나 강하게 정체성에 반영되는지 알 수 있습니다.
  3. 정당 지형을 설명하는 새로운 도구로서 텍스트 분석의 가능성
    전통적 설문에서 묻기 어려운 “마음속 정체성”을 유권자의 자발적 응답을 통해 드러낼 수 있는 기법으로 LSS 등 텍스트 분석 기법이 효과적임을 입증했습니다.

✍️ 마무리하며

Delia Zollinger의 이 논문은 유권자들이 정치적으로 스스로를 어떻게 인식하고 있는지를 ‘자기 말’로 분석하여 보여준다는 점에서 매우 새롭고 설득력 있는 연구입니다. 특히, 보편주의 대 특수주의라는 새로운 균열 구조가 단순히 분석상의 틀이 아니라 실제 유권자의 자기 인식에도 반영되어 있음을 실증적으로 보여준 것이 인상적입니다. 앞으로 유럽뿐만 아니라 미국, 한국 등에서도 이런 방식의 정체성 분석이 가능해질 수 있겠다는 점에서, 이 연구는 학문적으로도, 실천적으로도 매우 의미가 깊습니다.