[정치학/LLM] Yun and Lee (2025) 정당의 이념은 교통법안에 영향을 줄까? LLM으로 국회 데이터를 읽어본 연구
🎯 정당의 이념은 교통법안에 영향을 줄까?
LLM으로 국회 데이터를 읽어본 연구, LegiGPT
요즘 ChatGPT처럼 똑똑한 인공지능이 점점 더 많은 사회 문제를 분석하는 데 쓰이고 있죠. 그런데 한국 국회 데이터를 GPT-4로 돌려서 “정당의 이념이 교통정책에 어떤 영향을 미치는지” 알아본 논문이 나왔습니다. 제목은 바로 LegiGPT. 오늘은 그 논문 중에서도 먼저, 이 연구가 왜 중요한지, 어떤 이론적 기반 위에서 출발했는지를 살펴보려 해요.
🚗 교통정책도 결국 ‘정치’다
“교통정책은 그냥 기술적인 문제 아냐?”
이렇게 생각하기 쉽지만, 사실은 아주 이념적인 이슈예요.
왜냐하면,
- 어떤 지역에 예산을 더 쓸지
- 도로냐? 지하철이냐?
- 시내버스 보조금 줄까? 말까?
이런 결정은 결국 누구에게 혜택을 줄 것이냐는 정치적 판단이거든요.
💬 실제로 다양한 연구들이 교통정책과 정치 이념 사이의 연관성을 밝혀왔습니다:
- 미국에서는 **보수당(공화당)**이 고속도로, 자동차 기반 인프라에 우호적인 반면,
**진보당(민주당)**은 대중교통, 지속가능한 교통, 전기차 같은 정책을 더 선호합니다
👉 Klein et al. (2022), Nixon and Agrawal (2019), USDOT (2023) - 예를 들어 2021년 미국의 **인프라 투자 법안 ($1.2조)**도 민주당이 대거 찬성했고,
공화당은 일부만 지지했어요. 도시 vs 농촌, 도로 vs 철도, 이런 이념적 대립이 있었죠. - 미국 연방정부의 예산 분석에 따르면, 민주당 주들이 더 많은 인프라 예산을 가져가는 경향이 있다는 분석도 있어요
👉 Christenson (2024)
🗺️ 한국에서도 이념은 ‘지역’을 타고 흐른다
한국은 어떨까요? 정당의 이념이 공간적으로 분화되어 있다는 게 중요한 특징이에요.
📍 대표적인 지역 분포:
- 보수 강세: 경상도, 강남
- 진보 강세: 전라도, 강북/서남권
📌 이런 공간적 분포는 단지 선거 결과에만 영향을 미치는 게 아니에요.
입법 활동에도 영향을 미칩니다.
예컨대:
- 진보 의원은 지하철이나 친환경 교통법안을 더 자주 발의하고,
- 보수 의원은 도로 확충, 교통 혼잡 완화 같은 안건에 집중하는 경향이 있죠.
👉 Chae & Kim (2008), Yun (2024) 같은 연구는 이런 공간적-이념적 분화를 잘 보여줘요.
📊 기존 연구는 어떻게 이걸 분석했을까?
교통정책에 이념이 개입된다는 걸 보여주기 위해, 기존에는 주로 두 가지 방법이 사용됐어요.
🧪 1. 설문조사 기반 분석
- “당신은 대중교통을 더 늘리는 데 찬성하시나요?” 같은 질문을 통해
정당 지지와 정책 선호 사이의 관계를 파악하는 방식이에요. - 예: Klein et al. (2022)는 공화당 지지자는 고속도로 확장,
민주당 지지자는 대중교통 확충을 선호한다는 걸 보여줬어요. - Christiansen (2018)은 교통정책에 대한 불만이 민주주의 만족도까지 떨어뜨릴 수 있다는 걸 보여주기도 했어요.
📌 문제는?
→ 설문은 응답률이 낮고, 진짜 행동보다 말에 의존한다는 한계가 있어요.
→ 대규모 데이터로 보기 어렵고, 분석에 시간과 비용이 많이 듭니다.
🧠 2. 텍스트마이닝 기반 분석
그래서 최근에는 문서 기반 자동 분석, 즉 텍스트마이닝이 많이 쓰입니다.
예를 들어,
- Park et al. (2022): 코로나 시기 교통 허브 관련 정책 반응을 트위터에서 분석
- Chen et al. (2024): 중국 항만 통합 정책의 변화 흐름을 문서로 추적
- Chowdhury & Zhu (2023): 미래 교통 인프라 설계 요인을 토픽모델링으로 분석
📌 하지만 전통적인 텍스트마이닝도 한계가 있어요:
- 대부분 키워드 중심 분석이라서, 문맥을 제대로 반영하지 못해요.
예: “도로”라는 단어가 나왔다고 다 교통 관련 법안은 아니잖아요? - 정치적 이념까지 파악하는 데는 한계가 있어요. 왜냐하면, 키워드만으로는 누가 왜 발의했는지는 파악하기 어렵거든요.
🤖 그래서 등장한 GPT-4: 대형 언어모델의 힘
이제 여기에 대형 언어모델(LLM)이 등장합니다.
GPT-4 같은 모델은 전통적인 텍스트마이닝보다 훨씬 강력한 문맥 이해 능력을 가지고 있어요.
💡 LLM의 장점:
- 사전 라벨링이 없어도(zero-shot) 텍스트 분류가 가능
- 단어가 아니라 문장과 맥락 전체를 이해하면서 분류
- 편향이 덜하고, 사람 수준의 해석 능력
- 여러 언어(예: 한국어)도 다룰 수 있음
👉 실제로 Törnberg (2024), Kim et al. (2025), Wei et al. (2022)은
GPT가 정치적 관점 분류, 뉴스 분석, 정책 텍스트 요약 등에 매우 효과적이라는 걸 보여줬어요.
하지만 아직까지 입법 데이터를 LLM으로 분석한 정치 연구는 거의 없습니다.
한국 국회 법안을 대상으로 정당의 이념과 입법을 연결해서 본 건 이 논문이 처음 수준이에요.
📌 핵심 질문
이 논문이 던진 질문은 아주 명확합니다:
“한국 국회에서 발의된 교통법안은 발의자의 정치 이념에 따라 어떤 패턴을 보이는가?”
이걸 GPT-4와 XAI(XGBoost + SHAP)로 정교하게 풀어낸 것이 바로 LegiGPT 프레임워크입니다.
🧪 GPT가 법안을 분류하고, XAI가 이념을 해석한다?!
이전 포스팅에서 살펴봤듯, 이 논문은 정당의 이념이 교통정책 입법에 어떤 영향을 미치는지를 GPT-4와 XAI 모델을 활용해 분석한 아주 혁신적인 시도입니다.
오늘은 그 핵심인 **방법론(methodology)**을 아주아주 디테일하게 파헤쳐볼게요. 어떤 데이터를 어떻게 정제했는지, GPT-4는 어떤 방식으로 사용됐는지, 설명가능 인공지능(XAI)은 어떻게 모델을 구성하고 해석했는지를 하나도 빠짐없이 설명합니다.
📂 1. 사용한 데이터: 제21대 대한민국 국회 입법 기록 + 선거구 정보
이 LegiGPT 연구에서 가장 인상적인 점 중 하나는, 실제 국회의 입법 데이터를 기반으로 정당의 이념과 정책 행태를 분석했다는 점입니다. 정치학과 데이터과학이 만나는 지점에서 이만큼 ‘현실 밀착형’ 연구는 드물죠.
🔸 데이터 출처는 어디일까?
연구진은 한국의 대표적인 두 공공 데이터 소스를 활용했습니다:
- 대한민국 국회 개방형 입법포털 (https://www.data.go.kr/)
- 중앙선거관리위원회 선거 통계 시스템
이 두 개를 연결하면,
"어떤 의원이, 어느 지역구에서, 어떤 법안을, 누구와 함께 발의했고, 그것이 어떤 결과를 가졌는가"
를 모두 추적할 수 있게 됩니다.
🏛️ 입법 데이터: 제21대 국회 전체 법안
우선 분석 대상은 2020년 6월부터 2024년 5월까지 활동한 제21대 국회입니다.
- 총 23,655건의 법안이 발의됨
- 이 중 대표발의자 + 공동발의자 정보를 모두 포함
- 각 법안은 아래 4단계의 입법 절차를 따름:
① 발의 | 의원 1명 이상이 법안 제출 (대표 + 공동발의자) |
② 소관 상임위원회 심사 | 해당 분야 위원회가 정책성과 타당성 검토 |
③ 법제사법위원회 심사 | 법적 정합성 및 문구 심사 |
④ 본회의 표결 | 국회의원 전체가 찬반 투표. 과반 찬성 시 통과 |
각 단계에서 ‘심사 통과 여부’, ‘보류 또는 폐기 여부’ 같은 결과 데이터가 기록돼 있어요.
👉 덕분에, 단순히 법안이 ‘있다/없다’를 보는 게 아니라
어떤 법안이 끝까지 통과됐고, 누가 그걸 밀었는지까지 확인할 수 있습니다.
🗳️ 선거구 정보: 의원이 대표하는 지역의 특성
입법 데이터와 함께 사용된 또 하나의 핵심 데이터는 바로 선거구 단위 정보입니다.
선거구 수 | 총 253개 지역구 (2020년 기준) |
국회의원 수 | 322명 (지역구 + 비례대표 포함) |
선출 유형 | 지역구 의원 266명 + 비례대표 56명 |
기타 사항 | 재보궐 선거로 인해 총 의원 수가 지역구 수보다 많을 수 있음 |
각 선거구에 대해 다음과 같은 세부 변수들이 함께 수집되었습니다:
- 유권자 수: 해당 선거구에 등록된 전체 유권자 수
- 실제 투표자 수: 투표율을 나타내는 핵심 지표
- 무효표 수: 투표의 질적 수준을 간접적으로 보여주는 변수
- 지역 면적 (㎢): 대도시 vs 농촌 여부를 판단할 수 있는 지리적 변수
- 득표율 및 당선자 정당: 어떤 정당이 해당 지역을 차지했는지 확인 가능
이 정보는 이후 분석에서 매우 중요합니다. 왜냐하면 지역의 인구 규모나 밀도, 선출 방식(비례/지역구) 같은 요소가
“그 의원이 어떤 정당이고, 어떤 법안을 발의했는가?”
와 강하게 연관되기 때문이죠.
🧮 데이터 구성 단위: ‘법안-의원 참여 샘플’
법안 하나에 여러 명의 공동발의자가 참여하니까,
단순히 ‘법안 수’를 세는 것보다 훨씬 더 많은 분석 유닛이 생성됩니다.
👉 총 생성된 분석 단위는 약 297,155건의 의원-법안 참여 사례
(= 23,655건 × 평균 약 12.6명의 참여자)
하지만 교통 관련 법안만 보면?
- 최종 필터링된 교통법안: 577건
- 이 중에서 의원들이 발의자 혹은 공동발의자로 참여한 총 사례 수는 7,872건
이 데이터는 이후 예측모델(XGBoost) 학습의 기반이 됩니다.
✨ 왜 이 데이터가 특별한가?
💡 이 연구는 단순한 통계가 아니라,
국회의 ‘입법 행태’를 전수조사 수준으로 분석한 드문 사례입니다.
기존 연구들은 대부분:
- 설문조사로 이념 성향을 묻거나
- 텍스트마이닝으로 단순 빈도만 세거나
하는 경우가 많았죠. 하지만 이 연구는:
✅ 실제 법안
✅ 실제 발의자
✅ 실제 지역 기반
을 정확히 연결해서,
정당 이념이 어떻게 정책 결정에 반영되는지를 구체적이고 경험적으로 보여줍니다.
⚙️ 2. GPT-4로 교통법안 분류하기: LegiGPT의 4단계 필터링
이제 본격적으로 LegiGPT의 핵심인 GPT-4 기반의 교통법안 자동 분류 시스템을 살펴볼 시간입니다.
법안 수만 무려 23,655건.
이 중에서 정말로 교통정책과 관련된 법안만 뽑아야 한다면 어떻게 해야 할까요?
단순 키워드 검색?
❌ 안 됩니다. "교통", "도로", "차량" 같은 단어가 들어 있다고 해서 그 법안이 진짜 교통 관련 법안이라는 보장은 없어요.
예를 들어 “도로명 주소 개편” 법안은 행정 관련일 수도 있고, “교통비 지원”이 나와도 실제 초점은 복지일 수 있죠.
그래서 이 논문에서는 GPT-4를 활용한 다단계 필터링 시스템을 고안했습니다. 이름하여 LegiGPT 분류 파이프라인입니다.
🎯 목표
“법안의 중심 내용이 교통정책인가?”를 사람처럼 판단하는 자동화 시스템을 만들자!
이 목표를 위해 총 4단계에 걸친 정교한 분류 절차를 설계했습니다.
🔍 Step 1: 키워드 추출 (Keyword Extraction)
첫 단계는 법안에서 어떤 단어들이 많이 나오는지를 파악해서,
"교통 관련 법안일 가능성이 있는 키워드 목록"을 만드는 작업입니다.
✏️ 구체적으로 한 일:
- GPT-4에게 법안의 ‘설명(description)’ 필드를 입력하고,
→ 그 안에서 **명사(nouns)**만 추출하도록 요청했어요. - 하지만 문제는... 🤯 원문이 한국어라는 점!
한국어의 문제점:
- 조사가 붙는 교착어라서, 단어 경계가 애매함
예: “도로” vs “제도로”, “교통비를” vs “교통”
그래서 어떻게 했을까?
🌐 해결책: 영어로 번역!
- 추출된 명사들을 GPT-4로 영어로 자동 번역 → 의미 경계가 명확해짐
- 영어는 조사가 없고 단어 구분이 명확하니까,
진짜 교통 관련 키워드만 추리기 훨씬 쉬워졌어요!
✅ 결과:
- 약 2,000개 정도의 고유 교통 관련 키워드 목록 생성
- 예: road, traffic, bus, signal, metro, vehicle, tollgate, etc.
- 검증을 위해 전체의 10% 무작위 샘플을 사람이 직접 확인 → 높은 정확도 확인됨
🗂️ Step 2: 키워드 기반 필터링 (Keyword-based Selection)
이제 만들어진 키워드 목록을 가지고, 교통 키워드가 들어간 법안들을 1차적으로 걸러냅니다.
💻 GPT-4에게 준 지시문:
“다음 키워드 중 하나라도 포함된 법안들을 모두 골라줘.”
이 과정은 사실상 빠르고 넓게 훑는 작업입니다.
📊 결과:
- 총 23,655건 중에서
👉 3,874건의 법안이 필터링됨 (약 16.4%)
❗ 그런데 문제는?
- 단어만 보고 걸러낸 거라서,
문맥상 무관한 법안도 대거 포함됨 😬
예:
- “교통사고 발생 시 형사처벌 강화” → 실은 형법/사법 관련 법안
- “도로명 주소 체계 개선” → 교통 아닌 행정 정보체계 관련
👉 그래서 다음 단계에서는 문장 수준의 정밀도를 높이게 됩니다!
✒️ Step 3: 문장 기반 필터링 (Sentence-level Filtering)
이 단계부터는 GPT-4의 진짜 강점이 빛납니다.
이제는 법안 요약문 중 각 문장 하나하나를 분석해서,
실제로 교통정책을 다루고 있는지를 확인합니다.
🧠 GPT-4에게 준 지시문 예시:
“이 문장에서 등장하는 '도로'라는 단어는 교통 관련 맥락인가요, 아니면 그냥 관용 표현인가요?”
GPT-4는 문장의 문맥을 바탕으로 판단합니다.
예를 들어 “경제 활성화를 위한 기반 시설 확충”이라는 문장에서
‘도로’라는 단어가 있어도 교통이 핵심이 아니면 제외됩니다.
📊 결과:
- 3,874건 중 👉 902건이 남음 (약 3.8%)
🎯 성과:
- 문맥 중심의 교통 관련 문장만 있는 법안을 추림
- 정확도는 훨씬 높아졌지만, 여전히 비중심적 교통 언급이 있을 수 있음
→ 그래서 마지막 단계로 넘어갑니다.
📖 Step 4: 문맥 기반 필터링 (Context-based Filtering)
마지막 단계는 GPT-4에게 법안 전체 요약을 주고 묻는 겁니다:
“이 법안의 주요 목적이 교통정책인가요?”
즉, 단어 하나, 문장 하나가 아닌 전체 문서의 주제 흐름을 파악하는 단계입니다.
GPT-4는 요약문 전체를 읽고, 이 법안의 핵심 정책 대상이 교통 분야인지 아닌지를 정리해줍니다.
🎯 예시:
- “교통비 지원”이 복지 정책의 일부라면 ❌ 제외
- “자전거 도로 확충을 위한 지방재정 보조금 제도 개선”이면 ✅ 포함
📊 결과:
- 902건 중 👉 577건이 최종 통과 (약 2.4%)
📌 최종 요약: 4단계 필터링 결과
전체 | 23,655건 | 100% | 시작 지점 |
Step 1+2 (키워드) | 3,874건 | 16.4% | 단어 일치 기준 |
Step 3 (문장 필터링) | 902건 | 3.8% | 문장 맥락 기준 |
Step 4 (문맥 필터링) | 577건 | 2.4% | 주제 중심성 기준 (최종) |
💡 이 방식이 특별한 이유는?
기존의 키워드 중심 분석은 다음과 같은 한계가 있습니다:
- “교통”이라는 단어만 보고 법안을 분류하면
❌ 실제로는 전혀 관련 없는 법안이 섞일 수 있음 - 또는 반대로 교통 관련 내용인데 단어가 안 보이면
❌ 중요한 법안을 놓칠 수도 있음
📌 그런데 GPT-4는 문장 수준의 의미 이해와
문서 전체의 주제 흐름 판단까지 가능하기 때문에,
이처럼 정확도 높은 정책 분류 시스템을 만들 수 있었던 겁니다.
🧠 3. AI로 정치적 이념 예측하기: XAI 모델 구축
이제 GPT-4를 통해 진짜로 교통정책을 다룬 577건의 법안만 선별했습니다.
그 다음 질문은 이겁니다:
“그 법안을 발의하거나 공동 발의한 의원은 보수일까? 진보일까?”
그리고 그걸 무엇을 보고 판단할 수 있을까?
이를 풀기 위해 이 논문은 AI 예측 모델을 활용해 의원의 정치적 성향을 분류하고,
그 결과를 설명 가능한 인공지능(XAI) 기법으로 해석합니다.
이제부터는 GPT가 아니라, XGBoost와 SHAP의 시간입니다! 🎯
🎯 예측 목표는?
- 입력값: 의원과 지역구, 그리고 법안에 대한 19개 특성 변수
- 출력값: 그 법안에 참여한 의원의 정치 성향 (보수 = 1, 진보 = 0)
즉, 이 모델은 이렇게 작동합니다:
"어떤 의원이, 어떤 지역구에서, 어떤 동료들과, 어떤 법안을 발의했는지를 보고 →
그 사람이 보수인지 진보인지 예측해보자!"
🧩 입력 변수 구성 (총 19개 feature)
모델은 총 **19개의 변수(피처)**를 사용합니다.
크게 3가지 범주로 나눠볼 수 있어요.
① 🧑⚖️ 의원 특성 (개인 속성)
Gender | 남성(1) / 여성(0) |
Election type | 지역구(1) / 비례대표(0) |
Committee membership | 교통 상임위 소속 여부 (1/0) |
Number of terms elected | 당선 횟수 (정수형) |
② 🗳️ 지역구 특성 (Constituency features)
Electoral population | 유권자 수 |
Total votes | 유효 투표수 |
Invalid votes | 무효표 수 |
Area (㎢) | 선거구 면적 |
③ 📜 법안 및 공동발의 구성
Number of sponsors | 전체 공동발의자 수 |
# Conservative sponsors | 보수 발의자 수 |
# Progressive sponsors | 진보 발의자 수 |
% Conservative sponsors | 보수 비율 |
% Progressive sponsors | 진보 비율 |
Avg. number of terms | 평균 당선 횟수 |
# Male sponsors | 남성 공동발의자 수 |
# Female sponsors | 여성 공동발의자 수 |
% Male sponsors | 남성 비율 |
% Female sponsors | 여성 비율 |
Approval | 법안 통과 여부 (1: 통과, 0: 불통과) |
📌 이 19개 변수는 각각 의원 개인의 특성, 그가 대표하는 지역구, 그리고 그가 참여한 법안의 정치적/조직적 구성을 보여줍니다.
🤖 어떤 AI 모델을 사용했을까?
연구진은 예측 성능을 비교하기 위해 총 4가지 머신러닝 모델을 실험했습니다.
✅ XGBoost | 최고 성능 | 트리 기반 부스팅 알고리즘. 정밀하고 해석 가능 |
LightGBM | 고속 처리 | 빠르고 메모리 효율적. 대용량에 강함 |
Random Forest | 안정적 성능 | 여러 트리의 평균으로 예측. 과적합에 강함 |
MLP (Multi-layer perceptron) | 딥러닝 계열 | 은닉층이 있는 피드포워드 신경망. 유연하지만 해석력 낮음 |
결과적으로 가장 성능이 좋은 XGBoost가 최종 예측모델로 선택됐습니다.
(성능 비교는 아래에서 더 자세히 설명드릴게요.)
🧪 모델 학습 방식: 데이터 분할과 튜닝
정확한 평가를 위해 데이터를 다음과 같이 나눴습니다:
- Train set: 85% (약 8,548개 샘플)
- Test set: 15% (약 1,512개 샘플)
그리고 5-fold 교차검증을 사용해 안정적인 튜닝을 진행했습니다.
하이퍼파라미터 설정:
XGBoost | iterations = 500, learning rate = 0.15, max depth = 16 |
LightGBM | iterations = 500, learning rate = 0.12, num leaves = 16 |
Random Forest | trees = 500, depth = 8 |
MLP | hidden layer size = 16, activation = ReLU, optimizer = Adam |
📊 성능 비교 결과 (Precision / Recall / F1)
각 모델은 총 10번 반복 실험하고, 평균값과 95% 신뢰구간(CI)을 계산했습니다.
MLP | 0.877 | 0.853 | 0.865 |
RF | 0.932 | 0.916 | 0.924 |
LightGBM | 0.961 | 0.948 | 0.955 |
✅ XGBoost | 0.977 | 0.979 | 0.978 |
🎯 결론: XGBoost가 정확도와 일관성 모두 최고!
🔍 오차 행렬 (Confusion Matrix)
그렇다면 실제 예측은 얼마나 정확했을까요?
XGBoost의 결과를 오차행렬로 보면 다음과 같습니다:
예측 진보 | 982 | 21 |
예측 보수 | 23 | 986 |
- 정확하게 분류한 사례: 982(진보) + 986(보수) = 1,968건
- 오분류 사례: 21 + 23 = 44건
→ 전체 중 **약 97.8%**의 정확도를 보였어요!
🧠 XAI를 사용한 해석: SHAP 분석 소개
AI가 예측을 잘하는 것만큼 중요한 건,
"왜 그런 예측을 했는지 설명할 수 있는가?"죠.
그래서 이 논문은 **SHAP (SHapley Additive exPlanations)**을 사용해 XGBoost의 예측 결과를 해석합니다.
💡 SHAP이란?
- 게임이론 기반 해석 도구
- 각 변수(feature)가 예측 결과에 기여한 정도를 정량적으로 계산
- 전체 예측에 미친 평균적 영향을 시각화할 수 있음
📌 덕분에 우리가 이런 질문에 답할 수 있어요:
“왜 이 의원은 보수로 분류됐는가?”
“어떤 특성이 진보 예측에 영향을 줬는가?”
이 SHAP 분석 결과는 다음 편에서 아주 자세히 소개드릴게요.
(스포일러: 가장 중요한 변수는 ‘공동 발의자의 정치적 구성’입니다.)
✅ 요약: XAI 예측 모델의 성과
예측 대상 | 교통법안에 참여한 의원의 정치 성향 |
모델 | XGBoost (최종), LightGBM, RF, MLP |
입력 변수 | 의원 특성, 지역구 속성, 법안 참여 구성 (총 19개) |
정확도 | Precision = 0.977, Recall = 0.979, F1 = 0.978 |
해석 방식 | SHAP을 이용한 변수 중요도 시각화 |
📈 4. 결과: 보수는 누구와 법안을 내고, 진보는 어디서 움직이는가?
앞서 GPT-4를 통해 교통 관련 법안 577건을 선별했고,
XGBoost 모델로 **“이 법안에 참여한 의원은 보수인가 진보인가?”**를 예측해봤습니다.
이제는 그 결과를 바탕으로,
“과연 어떤 변수들이 이 예측을 좌우했는가?”
“보수 의원과 진보 의원은 어떤 방식으로 다르게 입법 활동을 했는가?”
를 하나하나 확인해보는 시간입니다.
📌 1. 기본 통계: 누가 더 많이 참여했나?
먼저, 577건의 교통법안에 대한 전체 참여자 수는 7,872건이었습니다.
(법안 하나에 여러 명이 공동 발의하면 그 수만큼 참여자로 기록됩니다.)
🔹 정당별 참여:
- 진보 계열 의원: 5,030건
- 보수 계열 의원: 2,842건
→ 진보 의원들이 1.8배 이상 더 활발하게 교통법안에 참여했어요.
🔹 성별:
- 남성 의원: 6,510건 (82.7%)
- 여성 의원: 1,362건 (17.3%)
→ 성별 격차가 매우 큽니다.
🔹 선출 방식:
- 지역구 의원: 6,735건
- 비례대표 의원: 1,137건
→ 역시 지역구 의원들이 훨씬 더 활발합니다.
🧠 시사점:
- 교통법안 발의에는 진보 + 지역구 + 남성 의원 중심의 참여 구조가 뚜렷합니다.
💡 2. 가장 영향력 있는 변수는?
이제 SHAP 분석 결과를 봐야죠!
SHAP은 각 변수가 AI 모델 예측에 미친 기여도를 정량화해서 보여줍니다.
📊 SHAP 결과: 가장 중요한 변수 Top 5
🥇 1위 | % 보수 발의자 | 전체 공동발의자 중 보수 의원 비율 |
🥈 2위 | % 진보 발의자 | 진보 의원 비율 |
🥉 3위 | 보수 발의자 수 | 절대 수치 |
4위 | 선거구 유권자 수 | 지역의 인구 규모 |
5위 | 선거구 면적 (㎢) | 도시/농촌 여부의 간접 지표 |
🔍 해석:
- **정치적 구성(보수/진보 비율)**이 예측의 가장 핵심입니다.
- 한 법안에 보수 의원이 많이 포함되어 있으면, 해당 의원도 보수일 확률이 급상승.
- 진보 비율이 높으면 반대로 진보로 예측.
- 선거구가 넓고 인구가 적을수록 보수적,
도시 밀집 지역일수록 진보적 성향이 강하게 나타납니다.
🔄 3. 변수 간 상호작용은?
단일 변수만 중요한 게 아닙니다.
서로 상호작용하면서 더 강한 예측력을 발휘하는 변수들이 있어요.
🤝 가장 강한 상관 관계 변수들:
- % 보수 발의자 ↔ 보수 발의자 수 (r > 0.8)
- % 진보 발의자 ↔ 진보 발의자 수 (r > 0.7)
👉 이 네 변수는 서로 밀접하게 연결되어 있고,
정치적 조합이 얼마나 일관되었는지를 보여줍니다.
예를 들어,
- 법안에 100명 중 70명이 보수 의원이라면 → 보수 의원이 더 많이 참여할 확률↑
- 반대로 진보 중심 법안에 보수 의원이 1~2명만 참여하는 경우 → 협치 가능성 존재
📉 4. SHAP 값 해석: 누구에게 어떤 영향을?
SHAP은 단순한 중요도뿐 아니라,
각 변수 값이 어떻게 예측 결과(보수 vs 진보)에 영향을 주는지도 알려줍니다.
예시: ‘% 보수 발의자’ 변수
- 50% 이하: 진보로 예측되는 경향 강함
- 50% 이상: 보수로 예측되는 경향 강함
- → 아주 **명확한 분기점(cutoff)**이 존재합니다.
예시: ‘보수 발의자 수’
- 90명 이상이면 SHAP 값이 급격히 올라감 → 보수 예측 강화
예시: ‘진보 발의자 수’
- 50명 이하면 진보 예측 SHAP 값이 낮음
- 150명 이상이면 SHAP 값이 안정적으로 0에 가까워짐
(즉, 특정 수 이상부터는 더 큰 효과 없음)
🔍 5. 예외적 패턴: 협치 혹은 이탈?
분석을 하다 보면 재미있는 경우도 나옵니다:
- 보수 의원이 진보 중심 법안에 단독 참여한 경우
- 진보 의원이 보수 다수 법안에 참여한 경우
이런 경우 SHAP 값은 미묘하게 작용하면서,
해당 의원의 정치 성향 예측에서 **예외적 행동(bipartisan behavior)**으로 반영됩니다.
📌 이건 단순한 정당 스티커를 넘어,
입법 활동에서의 실질적 연대/이탈을 관찰할 수 있는 귀중한 정보예요.
✅ 요약: 교통정책은 정치다
정치 성향 예측은 매우 정확하다 | XGBoost 예측 정확도 F1 = 0.978 |
가장 중요한 변수는 발의자 구성 | 보수/진보 비율이 정치 성향을 가장 잘 설명함 |
지역적 요인도 중요 | 보수: 인구 적고 넓은 지역, 진보: 도시 밀집 지역 |
일부 의원은 초당적 행동 | 협치의 흔적도 곳곳에서 나타남 |