Article Review

[정치학/LLM] Yun and Lee (2025) 정당의 이념은 교통법안에 영향을 줄까? LLM으로 국회 데이터를 읽어본 연구

Dr. Julia 2025. 7. 5. 13:07

🎯 정당의 이념은 교통법안에 영향을 줄까?

LLM으로 국회 데이터를 읽어본 연구, LegiGPT

요즘 ChatGPT처럼 똑똑한 인공지능이 점점 더 많은 사회 문제를 분석하는 데 쓰이고 있죠. 그런데 한국 국회 데이터를 GPT-4로 돌려서 “정당의 이념이 교통정책에 어떤 영향을 미치는지” 알아본 논문이 나왔습니다. 제목은 바로 LegiGPT. 오늘은 그 논문 중에서도 먼저, 이 연구가 왜 중요한지, 어떤 이론적 기반 위에서 출발했는지를 살펴보려 해요.


🚗 교통정책도 결국 ‘정치’다

“교통정책은 그냥 기술적인 문제 아냐?”
이렇게 생각하기 쉽지만, 사실은 아주 이념적인 이슈예요.

왜냐하면,

  • 어떤 지역에 예산을 더 쓸지
  • 도로냐? 지하철이냐?
  • 시내버스 보조금 줄까? 말까?

이런 결정은 결국 누구에게 혜택을 줄 것이냐정치적 판단이거든요.

💬 실제로 다양한 연구들이 교통정책과 정치 이념 사이의 연관성을 밝혀왔습니다:

  • 미국에서는 **보수당(공화당)**이 고속도로, 자동차 기반 인프라에 우호적인 반면,
    **진보당(민주당)**은 대중교통, 지속가능한 교통, 전기차 같은 정책을 더 선호합니다
    👉 Klein et al. (2022), Nixon and Agrawal (2019), USDOT (2023)
  • 예를 들어 2021년 미국의 **인프라 투자 법안 ($1.2조)**도 민주당이 대거 찬성했고,
    공화당은 일부만 지지했어요. 도시 vs 농촌, 도로 vs 철도, 이런 이념적 대립이 있었죠.
  • 미국 연방정부의 예산 분석에 따르면, 민주당 주들이 더 많은 인프라 예산을 가져가는 경향이 있다는 분석도 있어요
    👉 Christenson (2024)

🗺️ 한국에서도 이념은 ‘지역’을 타고 흐른다

한국은 어떨까요? 정당의 이념이 공간적으로 분화되어 있다는 게 중요한 특징이에요.

📍 대표적인 지역 분포:

  • 보수 강세: 경상도, 강남
  • 진보 강세: 전라도, 강북/서남권

📌 이런 공간적 분포는 단지 선거 결과에만 영향을 미치는 게 아니에요.
입법 활동에도 영향을 미칩니다.
예컨대:

  • 진보 의원은 지하철이나 친환경 교통법안을 더 자주 발의하고,
  • 보수 의원은 도로 확충, 교통 혼잡 완화 같은 안건에 집중하는 경향이 있죠.

👉 Chae & Kim (2008), Yun (2024) 같은 연구는 이런 공간적-이념적 분화를 잘 보여줘요.


📊 기존 연구는 어떻게 이걸 분석했을까?

교통정책에 이념이 개입된다는 걸 보여주기 위해, 기존에는 주로 두 가지 방법이 사용됐어요.

🧪 1. 설문조사 기반 분석

  • “당신은 대중교통을 더 늘리는 데 찬성하시나요?” 같은 질문을 통해
    정당 지지와 정책 선호 사이의 관계를 파악하는 방식이에요.
  • 예: Klein et al. (2022)는 공화당 지지자는 고속도로 확장,
    민주당 지지자는 대중교통 확충을 선호한다는 걸 보여줬어요.
  • Christiansen (2018)은 교통정책에 대한 불만이 민주주의 만족도까지 떨어뜨릴 수 있다는 걸 보여주기도 했어요.

📌 문제는?
설문은 응답률이 낮고, 진짜 행동보다 말에 의존한다는 한계가 있어요.
→ 대규모 데이터로 보기 어렵고, 분석에 시간과 비용이 많이 듭니다.


🧠 2. 텍스트마이닝 기반 분석

그래서 최근에는 문서 기반 자동 분석, 즉 텍스트마이닝이 많이 쓰입니다.

예를 들어,

  • Park et al. (2022): 코로나 시기 교통 허브 관련 정책 반응을 트위터에서 분석
  • Chen et al. (2024): 중국 항만 통합 정책의 변화 흐름을 문서로 추적
  • Chowdhury & Zhu (2023): 미래 교통 인프라 설계 요인을 토픽모델링으로 분석

📌 하지만 전통적인 텍스트마이닝도 한계가 있어요:

  • 대부분 키워드 중심 분석이라서, 문맥을 제대로 반영하지 못해요.
    예: “도로”라는 단어가 나왔다고 다 교통 관련 법안은 아니잖아요?
  • 정치적 이념까지 파악하는 데는 한계가 있어요. 왜냐하면, 키워드만으로는 누가 왜 발의했는지는 파악하기 어렵거든요.

🤖 그래서 등장한 GPT-4: 대형 언어모델의 힘

이제 여기에 대형 언어모델(LLM)이 등장합니다.
GPT-4 같은 모델은 전통적인 텍스트마이닝보다 훨씬 강력한 문맥 이해 능력을 가지고 있어요.

💡 LLM의 장점:

  • 사전 라벨링이 없어도(zero-shot) 텍스트 분류가 가능
  • 단어가 아니라 문장과 맥락 전체를 이해하면서 분류
  • 편향이 덜하고, 사람 수준의 해석 능력
  • 여러 언어(예: 한국어)도 다룰 수 있음

👉 실제로 Törnberg (2024), Kim et al. (2025), Wei et al. (2022)은
GPT가 정치적 관점 분류, 뉴스 분석, 정책 텍스트 요약 등에 매우 효과적이라는 걸 보여줬어요.

하지만 아직까지 입법 데이터를 LLM으로 분석한 정치 연구는 거의 없습니다.
한국 국회 법안을 대상으로 정당의 이념과 입법을 연결해서 본 건 이 논문이 처음 수준이에요.


📌 핵심 질문

이 논문이 던진 질문은 아주 명확합니다:

한국 국회에서 발의된 교통법안은 발의자의 정치 이념에 따라 어떤 패턴을 보이는가?”

이걸 GPT-4와 XAI(XGBoost + SHAP)로 정교하게 풀어낸 것이 바로 LegiGPT 프레임워크입니다.


🧪 GPT가 법안을 분류하고, XAI가 이념을 해석한다?!

 

이전 포스팅에서 살펴봤듯, 이 논문은 정당의 이념이 교통정책 입법에 어떤 영향을 미치는지를 GPT-4와 XAI 모델을 활용해 분석한 아주 혁신적인 시도입니다.

오늘은 그 핵심인 **방법론(methodology)**을 아주아주 디테일하게 파헤쳐볼게요. 어떤 데이터를 어떻게 정제했는지, GPT-4는 어떤 방식으로 사용됐는지, 설명가능 인공지능(XAI)은 어떻게 모델을 구성하고 해석했는지를 하나도 빠짐없이 설명합니다.

 

📂 1. 사용한 데이터: 제21대 대한민국 국회 입법 기록 + 선거구 정보

이 LegiGPT 연구에서 가장 인상적인 점 중 하나는, 실제 국회의 입법 데이터를 기반으로 정당의 이념과 정책 행태를 분석했다는 점입니다. 정치학과 데이터과학이 만나는 지점에서 이만큼 ‘현실 밀착형’ 연구는 드물죠.

🔸 데이터 출처는 어디일까?

연구진은 한국의 대표적인 두 공공 데이터 소스를 활용했습니다:

  1. 대한민국 국회 개방형 입법포털 (https://www.data.go.kr/)
  2. 중앙선거관리위원회 선거 통계 시스템

이 두 개를 연결하면,

"어떤 의원이, 어느 지역구에서, 어떤 법안을, 누구와 함께 발의했고, 그것이 어떤 결과를 가졌는가"
를 모두 추적할 수 있게 됩니다.


🏛️ 입법 데이터: 제21대 국회 전체 법안

우선 분석 대상은 2020년 6월부터 2024년 5월까지 활동한 제21대 국회입니다.

  • 23,655건의 법안이 발의
  • 이 중 대표발의자 + 공동발의자 정보를 모두 포함
  • 각 법안은 아래 4단계의 입법 절차를 따름:
입법 절차 단계설명
① 발의 의원 1명 이상이 법안 제출 (대표 + 공동발의자)
② 소관 상임위원회 심사 해당 분야 위원회가 정책성과 타당성 검토
③ 법제사법위원회 심사 법적 정합성 및 문구 심사
④ 본회의 표결 국회의원 전체가 찬반 투표. 과반 찬성 시 통과
 

각 단계에서 ‘심사 통과 여부’, ‘보류 또는 폐기 여부’ 같은 결과 데이터가 기록돼 있어요.

👉 덕분에, 단순히 법안이 ‘있다/없다’를 보는 게 아니라
어떤 법안이 끝까지 통과됐고, 누가 그걸 밀었는지까지 확인할 수 있습니다.


🗳️ 선거구 정보: 의원이 대표하는 지역의 특성

입법 데이터와 함께 사용된 또 하나의 핵심 데이터는 바로 선거구 단위 정보입니다.

항목설명
선거구 수 총 253개 지역구 (2020년 기준)
국회의원 수 322명 (지역구 + 비례대표 포함)
선출 유형 지역구 의원 266명 + 비례대표 56명
기타 사항 재보궐 선거로 인해 총 의원 수가 지역구 수보다 많을 수 있음
 

각 선거구에 대해 다음과 같은 세부 변수들이 함께 수집되었습니다:

  • 유권자 수: 해당 선거구에 등록된 전체 유권자 수
  • 실제 투표자 수: 투표율을 나타내는 핵심 지표
  • 무효표 수: 투표의 질적 수준을 간접적으로 보여주는 변수
  • 지역 면적 (㎢): 대도시 vs 농촌 여부를 판단할 수 있는 지리적 변수
  • 득표율 및 당선자 정당: 어떤 정당이 해당 지역을 차지했는지 확인 가능

이 정보는 이후 분석에서 매우 중요합니다. 왜냐하면 지역의 인구 규모나 밀도, 선출 방식(비례/지역구) 같은 요소가

“그 의원이 어떤 정당이고, 어떤 법안을 발의했는가?”
와 강하게 연관되기 때문이죠.


🧮 데이터 구성 단위: ‘법안-의원 참여 샘플’

법안 하나에 여러 명의 공동발의자가 참여하니까,
단순히 ‘법안 수’를 세는 것보다 훨씬 더 많은 분석 유닛이 생성됩니다.

👉 총 생성된 분석 단위는 297,155건의 의원-법안 참여 사례
(= 23,655건 × 평균 약 12.6명의 참여자)

하지만 교통 관련 법안만 보면?

  • 최종 필터링된 교통법안: 577건
  • 이 중에서 의원들이 발의자 혹은 공동발의자로 참여한 총 사례 수는 7,872건

이 데이터는 이후 예측모델(XGBoost) 학습의 기반이 됩니다.


✨ 왜 이 데이터가 특별한가?

💡 이 연구는 단순한 통계가 아니라,
국회의 ‘입법 행태’를 전수조사 수준으로 분석한 드문 사례입니다.

기존 연구들은 대부분:

  • 설문조사로 이념 성향을 묻거나
  • 텍스트마이닝으로 단순 빈도만 세거나

하는 경우가 많았죠. 하지만 이 연구는:

✅ 실제 법안
✅ 실제 발의자
✅ 실제 지역 기반
정확히 연결해서,
정당 이념이 어떻게 정책 결정에 반영되는지를 구체적이고 경험적으로 보여줍니다.

 

 

⚙️ 2. GPT-4로 교통법안 분류하기: LegiGPT의 4단계 필터링

이제 본격적으로 LegiGPT의 핵심인 GPT-4 기반의 교통법안 자동 분류 시스템을 살펴볼 시간입니다.

법안 수만 무려 23,655건.
이 중에서 정말로 교통정책과 관련된 법안만 뽑아야 한다면 어떻게 해야 할까요?

단순 키워드 검색?
❌ 안 됩니다. "교통", "도로", "차량" 같은 단어가 들어 있다고 해서 그 법안이 진짜 교통 관련 법안이라는 보장은 없어요.
예를 들어 “도로명 주소 개편” 법안은 행정 관련일 수도 있고, “교통비 지원”이 나와도 실제 초점은 복지일 수 있죠.

그래서 이 논문에서는 GPT-4를 활용한 다단계 필터링 시스템을 고안했습니다. 이름하여 LegiGPT 분류 파이프라인입니다.


🎯 목표

“법안의 중심 내용이 교통정책인가?”를 사람처럼 판단하는 자동화 시스템을 만들자!

이 목표를 위해 총 4단계에 걸친 정교한 분류 절차를 설계했습니다.


🔍 Step 1: 키워드 추출 (Keyword Extraction)

첫 단계는 법안에서 어떤 단어들이 많이 나오는지를 파악해서,
"교통 관련 법안일 가능성이 있는 키워드 목록"을 만드는 작업입니다.

✏️ 구체적으로 한 일:

  • GPT-4에게 법안의 ‘설명(description)’ 필드를 입력하고,
    → 그 안에서 **명사(nouns)**만 추출하도록 요청했어요.
  • 하지만 문제는... 🤯 원문이 한국어라는 점!

한국어의 문제점:

  • 조사가 붙는 교착어라서, 단어 경계가 애매함
    예: “도로” vs “제도로”, “교통비를” vs “교통”

그래서 어떻게 했을까?

🌐 해결책: 영어로 번역!

  • 추출된 명사들을 GPT-4로 영어로 자동 번역 → 의미 경계가 명확해짐
  • 영어는 조사가 없고 단어 구분이 명확하니까,
    진짜 교통 관련 키워드만 추리기 훨씬 쉬워졌어요!

✅ 결과:

  • 2,000개 정도의 고유 교통 관련 키워드 목록 생성
  • 예: road, traffic, bus, signal, metro, vehicle, tollgate, etc.
  • 검증을 위해 전체의 10% 무작위 샘플을 사람이 직접 확인 → 높은 정확도 확인됨

🗂️ Step 2: 키워드 기반 필터링 (Keyword-based Selection)

이제 만들어진 키워드 목록을 가지고, 교통 키워드가 들어간 법안들을 1차적으로 걸러냅니다.

💻 GPT-4에게 준 지시문:

다음 키워드 중 하나라도 포함된 법안들을 모두 골라줘.”

이 과정은 사실상 빠르고 넓게 훑는 작업입니다.

📊 결과:

  • 23,655건 중에서
    👉 3,874건의 법안이 필터링됨 (약 16.4%)

❗ 그런데 문제는?

  • 단어만 보고 걸러낸 거라서,
    문맥상 무관한 법안도 대거 포함됨 😬

예:

  • “교통사고 발생 시 형사처벌 강화” → 실은 형법/사법 관련 법안
  • “도로명 주소 체계 개선” → 교통 아닌 행정 정보체계 관련

👉 그래서 다음 단계에서는 문장 수준의 정밀도를 높이게 됩니다!


✒️ Step 3: 문장 기반 필터링 (Sentence-level Filtering)

이 단계부터는 GPT-4의 진짜 강점이 빛납니다.
이제는 법안 요약문 중 각 문장 하나하나를 분석해서,
실제로 교통정책을 다루고 있는지를 확인합니다.

🧠 GPT-4에게 준 지시문 예시:

“이 문장에서 등장하는 '도로'라는 단어는 교통 관련 맥락인가요, 아니면 그냥 관용 표현인가요?”

GPT-4는 문장의 문맥을 바탕으로 판단합니다.
예를 들어 “경제 활성화를 위한 기반 시설 확충”이라는 문장에서
‘도로’라는 단어가 있어도 교통이 핵심이 아니면 제외됩니다.

📊 결과:

  • 3,874건 중 👉 902건이 남음 (약 3.8%)

🎯 성과:

  • 문맥 중심의 교통 관련 문장만 있는 법안을 추림
  • 정확도는 훨씬 높아졌지만, 여전히 비중심적 교통 언급이 있을 수 있음
    → 그래서 마지막 단계로 넘어갑니다.

📖 Step 4: 문맥 기반 필터링 (Context-based Filtering)

마지막 단계는 GPT-4에게 법안 전체 요약을 주고 묻는 겁니다:

이 법안의 주요 목적이 교통정책인가요?”

즉, 단어 하나, 문장 하나가 아닌 전체 문서의 주제 흐름을 파악하는 단계입니다.
GPT-4는 요약문 전체를 읽고, 이 법안의 핵심 정책 대상이 교통 분야인지 아닌지를 정리해줍니다.

🎯 예시:

  • “교통비 지원”이 복지 정책의 일부라면 ❌ 제외
  • “자전거 도로 확충을 위한 지방재정 보조금 제도 개선”이면 ✅ 포함

📊 결과:

  • 902건 중 👉 577건이 최종 통과 (약 2.4%)

📌 최종 요약: 4단계 필터링 결과

단계남은 법안 수누적 비율설명
전체 23,655건 100% 시작 지점
Step 1+2 (키워드) 3,874건 16.4% 단어 일치 기준
Step 3 (문장 필터링) 902건 3.8% 문장 맥락 기준
Step 4 (문맥 필터링) 577건 2.4% 주제 중심성 기준 (최종)
 

💡 이 방식이 특별한 이유는?

기존의 키워드 중심 분석은 다음과 같은 한계가 있습니다:

  • “교통”이라는 단어만 보고 법안을 분류하면
    ❌ 실제로는 전혀 관련 없는 법안이 섞일 수 있음
  • 또는 반대로 교통 관련 내용인데 단어가 안 보이면
    ❌ 중요한 법안을 놓칠 수도 있음

📌 그런데 GPT-4는 문장 수준의 의미 이해
문서 전체의 주제 흐름 판단까지 가능하기 때문에,
이처럼 정확도 높은 정책 분류 시스템을 만들 수 있었던 겁니다.

 

 

🧠 3. AI로 정치적 이념 예측하기: XAI 모델 구축

이제 GPT-4를 통해 진짜로 교통정책을 다룬 577건의 법안만 선별했습니다.
그 다음 질문은 이겁니다:

“그 법안을 발의하거나 공동 발의한 의원은 보수일까? 진보일까?
그리고 그걸 무엇을 보고 판단할 수 있을까?

이를 풀기 위해 이 논문은 AI 예측 모델을 활용해 의원의 정치적 성향을 분류하고,
그 결과를 설명 가능한 인공지능(XAI) 기법으로 해석합니다.

이제부터는 GPT가 아니라, XGBoost와 SHAP의 시간입니다! 🎯


🎯 예측 목표는?

  • 입력값: 의원과 지역구, 그리고 법안에 대한 19개 특성 변수
  • 출력값: 그 법안에 참여한 의원의 정치 성향 (보수 = 1, 진보 = 0)

즉, 이 모델은 이렇게 작동합니다:

"어떤 의원이, 어떤 지역구에서, 어떤 동료들과, 어떤 법안을 발의했는지를 보고 →
그 사람이 보수인지 진보인지 예측해보자!"


🧩 입력 변수 구성 (총 19개 feature)

모델은 총 **19개의 변수(피처)**를 사용합니다.
크게 3가지 범주로 나눠볼 수 있어요.

① 🧑‍⚖️ 의원 특성 (개인 속성)

변수설명
Gender 남성(1) / 여성(0)
Election type 지역구(1) / 비례대표(0)
Committee membership 교통 상임위 소속 여부 (1/0)
Number of terms elected 당선 횟수 (정수형)
 

② 🗳️ 지역구 특성 (Constituency features)

변수설명
Electoral population 유권자 수
Total votes 유효 투표수
Invalid votes 무효표 수
Area (㎢) 선거구 면적
 

③ 📜 법안 및 공동발의 구성

변수설명
Number of sponsors 전체 공동발의자 수
# Conservative sponsors 보수 발의자 수
# Progressive sponsors 진보 발의자 수
% Conservative sponsors 보수 비율
% Progressive sponsors 진보 비율
Avg. number of terms 평균 당선 횟수
# Male sponsors 남성 공동발의자 수
# Female sponsors 여성 공동발의자 수
% Male sponsors 남성 비율
% Female sponsors 여성 비율
Approval 법안 통과 여부 (1: 통과, 0: 불통과)
 

📌 이 19개 변수는 각각 의원 개인의 특성, 그가 대표하는 지역구, 그리고 그가 참여한 법안의 정치적/조직적 구성을 보여줍니다.


🤖 어떤 AI 모델을 사용했을까?

연구진은 예측 성능을 비교하기 위해 총 4가지 머신러닝 모델을 실험했습니다.

모델명특징설명
XGBoost 최고 성능 트리 기반 부스팅 알고리즘. 정밀하고 해석 가능
LightGBM 고속 처리 빠르고 메모리 효율적. 대용량에 강함
Random Forest 안정적 성능 여러 트리의 평균으로 예측. 과적합에 강함
MLP (Multi-layer perceptron) 딥러닝 계열 은닉층이 있는 피드포워드 신경망. 유연하지만 해석력 낮음
 

결과적으로 가장 성능이 좋은 XGBoost최종 예측모델로 선택됐습니다.
(성능 비교는 아래에서 더 자세히 설명드릴게요.)


🧪 모델 학습 방식: 데이터 분할과 튜닝

정확한 평가를 위해 데이터를 다음과 같이 나눴습니다:

  • Train set: 85% (약 8,548개 샘플)
  • Test set: 15% (약 1,512개 샘플)

그리고 5-fold 교차검증을 사용해 안정적인 튜닝을 진행했습니다.

하이퍼파라미터 설정:

모델주요 파라미터
XGBoost iterations = 500, learning rate = 0.15, max depth = 16
LightGBM iterations = 500, learning rate = 0.12, num leaves = 16
Random Forest trees = 500, depth = 8
MLP hidden layer size = 16, activation = ReLU, optimizer = Adam
 

📊 성능 비교 결과 (Precision / Recall / F1)

각 모델은 총 10번 반복 실험하고, 평균값과 95% 신뢰구간(CI)을 계산했습니다.

모델PrecisionRecallF1 Score
MLP 0.877 0.853 0.865
RF 0.932 0.916 0.924
LightGBM 0.961 0.948 0.955
XGBoost 0.977 0.979 0.978
 

🎯 결론: XGBoost가 정확도와 일관성 모두 최고!


🔍 오차 행렬 (Confusion Matrix)

그렇다면 실제 예측은 얼마나 정확했을까요?
XGBoost의 결과를 오차행렬로 보면 다음과 같습니다:

구분실제 진보실제 보수
예측 진보 982 21
예측 보수 23 986
 
  • 정확하게 분류한 사례: 982(진보) + 986(보수) = 1,968건
  • 오분류 사례: 21 + 23 = 44건
    → 전체 중 **약 97.8%**의 정확도를 보였어요!

🧠 XAI를 사용한 해석: SHAP 분석 소개

AI가 예측을 잘하는 것만큼 중요한 건,

"왜 그런 예측을 했는지 설명할 수 있는가?"죠.

그래서 이 논문은 **SHAP (SHapley Additive exPlanations)**을 사용해 XGBoost의 예측 결과를 해석합니다.

💡 SHAP이란?

  • 게임이론 기반 해석 도구
  • 각 변수(feature)가 예측 결과에 기여한 정도를 정량적으로 계산
  • 전체 예측에 미친 평균적 영향을 시각화할 수 있음

📌 덕분에 우리가 이런 질문에 답할 수 있어요:

“왜 이 의원은 보수로 분류됐는가?”
“어떤 특성이 진보 예측에 영향을 줬는가?”

이 SHAP 분석 결과는 다음 편에서 아주 자세히 소개드릴게요.
(스포일러: 가장 중요한 변수는 ‘공동 발의자의 정치적 구성’입니다.)


✅ 요약: XAI 예측 모델의 성과

요소요약 설명
예측 대상 교통법안에 참여한 의원의 정치 성향
모델 XGBoost (최종), LightGBM, RF, MLP
입력 변수 의원 특성, 지역구 속성, 법안 참여 구성 (총 19개)
정확도 Precision = 0.977, Recall = 0.979, F1 = 0.978
해석 방식 SHAP을 이용한 변수 중요도 시각화

📈 4. 결과: 보수는 누구와 법안을 내고, 진보는 어디서 움직이는가?

앞서 GPT-4를 통해 교통 관련 법안 577건을 선별했고,
XGBoost 모델로 **“이 법안에 참여한 의원은 보수인가 진보인가?”**를 예측해봤습니다.

이제는 그 결과를 바탕으로,

“과연 어떤 변수들이 이 예측을 좌우했는가?”
“보수 의원과 진보 의원은 어떤 방식으로 다르게 입법 활동을 했는가?”
를 하나하나 확인해보는 시간입니다.


📌 1. 기본 통계: 누가 더 많이 참여했나?

먼저, 577건의 교통법안에 대한 전체 참여자 수는 7,872건이었습니다.
(법안 하나에 여러 명이 공동 발의하면 그 수만큼 참여자로 기록됩니다.)

🔹 정당별 참여:

  • 진보 계열 의원: 5,030건
  • 보수 계열 의원: 2,842건
    → 진보 의원들이 1.8배 이상 더 활발하게 교통법안에 참여했어요.

🔹 성별:

  • 남성 의원: 6,510건 (82.7%)
  • 여성 의원: 1,362건 (17.3%)
    → 성별 격차가 매우 큽니다.

🔹 선출 방식:

  • 지역구 의원: 6,735건
  • 비례대표 의원: 1,137건
    → 역시 지역구 의원들이 훨씬 더 활발합니다.

🧠 시사점:

  • 교통법안 발의에는 진보 + 지역구 + 남성 의원 중심의 참여 구조가 뚜렷합니다.

💡 2. 가장 영향력 있는 변수는?

이제 SHAP 분석 결과를 봐야죠!
SHAP은 각 변수가 AI 모델 예측에 미친 기여도를 정량화해서 보여줍니다.

📊 SHAP 결과: 가장 중요한 변수 Top 5

순위변수설명
🥇 1위 % 보수 발의자 전체 공동발의자 중 보수 의원 비율
🥈 2위 % 진보 발의자 진보 의원 비율
🥉 3위 보수 발의자 수 절대 수치
4위 선거구 유권자 수 지역의 인구 규모
5위 선거구 면적 (㎢) 도시/농촌 여부의 간접 지표
 

🔍 해석:

  • **정치적 구성(보수/진보 비율)**이 예측의 가장 핵심입니다.
  • 한 법안에 보수 의원이 많이 포함되어 있으면, 해당 의원도 보수일 확률이 급상승.
  • 진보 비율이 높으면 반대로 진보로 예측.
  • 선거구가 넓고 인구가 적을수록 보수적,
    도시 밀집 지역일수록 진보적 성향이 강하게 나타납니다.

🔄 3. 변수 간 상호작용은?

단일 변수만 중요한 게 아닙니다.
서로 상호작용하면서 더 강한 예측력을 발휘하는 변수들이 있어요.

🤝 가장 강한 상관 관계 변수들:

  • % 보수 발의자 ↔ 보수 발의자 수 (r > 0.8)
  • % 진보 발의자 ↔ 진보 발의자 수 (r > 0.7)

👉 이 네 변수는 서로 밀접하게 연결되어 있고,
정치적 조합이 얼마나 일관되었는지를 보여줍니다.

예를 들어,

  • 법안에 100명 중 70명이 보수 의원이라면 → 보수 의원이 더 많이 참여할 확률↑
  • 반대로 진보 중심 법안에 보수 의원이 1~2명만 참여하는 경우 → 협치 가능성 존재

📉 4. SHAP 값 해석: 누구에게 어떤 영향을?

SHAP은 단순한 중요도뿐 아니라,
각 변수 값이 어떻게 예측 결과(보수 vs 진보)에 영향을 주는지도 알려줍니다.

예시: ‘% 보수 발의자’ 변수

  • 50% 이하: 진보로 예측되는 경향 강함
  • 50% 이상: 보수로 예측되는 경향 강함
  • → 아주 **명확한 분기점(cutoff)**이 존재합니다.

예시: ‘보수 발의자 수’

  • 90명 이상이면 SHAP 값이 급격히 올라감 → 보수 예측 강화

예시: ‘진보 발의자 수’

  • 50명 이하면 진보 예측 SHAP 값이 낮음
  • 150명 이상이면 SHAP 값이 안정적으로 0에 가까워짐
    (즉, 특정 수 이상부터는 더 큰 효과 없음)

🔍 5. 예외적 패턴: 협치 혹은 이탈?

분석을 하다 보면 재미있는 경우도 나옵니다:

  • 보수 의원이 진보 중심 법안에 단독 참여한 경우
  • 진보 의원이 보수 다수 법안에 참여한 경우

이런 경우 SHAP 값은 미묘하게 작용하면서,
해당 의원의 정치 성향 예측에서 **예외적 행동(bipartisan behavior)**으로 반영됩니다.

📌 이건 단순한 정당 스티커를 넘어,
입법 활동에서의 실질적 연대/이탈을 관찰할 수 있는 귀중한 정보예요.


✅ 요약: 교통정책은 정치다

핵심 발견설명
정치 성향 예측은 매우 정확하다 XGBoost 예측 정확도 F1 = 0.978
가장 중요한 변수는 발의자 구성 보수/진보 비율이 정치 성향을 가장 잘 설명함
지역적 요인도 중요 보수: 인구 적고 넓은 지역, 진보: 도시 밀집 지역
일부 의원은 초당적 행동 협치의 흔적도 곳곳에서 나타남