
인공지능과 질적 코딩의 만남: GPT와 LLM이 연구를 어떻게 바꿀까?
질적 코딩, 이젠 AI가 도와줄까?
사회과학 연구자들에게 질적 텍스트 분석(qualitative text analysis)은 필수적인 도구입니다. 뉴스 기사, 인터뷰 기록, 연설문 등 방대한 텍스트에서 의미를 추출하려면 연구자들이 직접 읽고 코드(코딩)를 붙여야 했죠. 하지만 이 과정은 매우 시간이 많이 걸리고, 연구 보조원이 여러 명 참여할 경우 일관성을 유지하는 것도 어렵습니다.
최근 들어 연구자들은 인공지능(AI), 특히 대형 언어 모델(LLM, Large Language Models)을 활용해 이 문제를 해결하려는 시도를 하고 있습니다. 2022년 OpenAI가 ChatGPT를 출시하면서, 복잡한 프로그래밍 없이도 자연어로 AI와 상호작용하며 데이터를 분석할 수 있는 길이 열렸죠.
이 논문에서는 GPT와 같은 생성형 LLM이 기존의 질적 코딩 방식을 얼마나 잘 재현하고, 또 보완할 수 있는지를 실험했습니다. 연구자들은 여러 개의 AI 모델을 활용해 질적 코딩을 수행하고, 기존의 손 코딩(hand coding)과 비교해 얼마나 정확하게 수행할 수 있는지를 평가했습니다.
질적 코딩과 AI의 만남: 연구 질문과 실험 목표
연구자들이 던진 핵심 질문은 다음과 같습니다.
- 생성형 LLM이 전통적인 질적 코딩 방식을 얼마나 효과적으로 재현할 수 있을까?
- LLM을 활용한 새로운 질적 분석 워크플로우(workflow)는 기존 방법과 어떻게 다를까?
- LLM이 학습한 정의(definition)나 개념들이 실제로 연구자가 의도한 바를 반영할 수 있을까?
- 개방형(Open-source) LLM과 폐쇄형(Closed-source) LLM(예: GPT-4) 중 어떤 것이 더 효과적일까?
이를 확인하기 위해 연구진은 GPT-4, Llama3(70B), Llama3.1(70B), Gemma2(27B) 등 여러 AI 모델을 이용해 뉴스 기사를 분석하는 실험을 진행했습니다.
AI를 활용한 질적 코딩 실험: 어떻게 연구했을까?
질적 코딩은 연구자가 텍스트에서 의미 있는 패턴을 찾아 태그(코드)를 붙이는 과정입니다. 예를 들어, 뉴스 기사에서 "불평등"이라는 개념이 등장하는지 찾고, 이를 **"경제적 불평등"**이라는 코드로 분류하는 것이죠. 하지만 이 작업은 방대한 데이터를 처리해야 하는 경우 상당히 시간이 많이 걸리고, 여러 명이 참여하면 일관성을 유지하는 것도 어렵습니다.
그렇다면 AI, 특히 **GPT-4와 같은 대형 언어 모델(LLM, Large Language Models)**을 활용하면 이 과정을 더 빠르고 일관되게 수행할 수 있을까요? 연구진은 이를 알아보기 위해 1,253개의 뉴스 기사를 AI로 분석하는 실험을 진행했습니다.
1️⃣ 분석 대상: 1,253개의 뉴스 기사
연구진은 미국의 주요 주간 뉴스 잡지인 Time, Newsweek, U.S. News & World Report에서 1980년부터 2012년까지 발행된 1,253개의 기사를 수집했습니다.
이 기사들은 연구자가 이미 **손으로 직접 코딩(hand coding)**을 해둔 데이터셋이었습니다. 즉, 연구진이 이미 사람이 분류한 결과를 가지고 있었기 때문에 AI가 얼마나 정확하게 분류하는지를 기존 데이터와 비교할 수 있었습니다.
기사의 내용은 경제와 관련된 것이었지만, 모든 기사가 경제적 불평등을 다룬 것은 아니었습니다. 연구진은 이 기사를 크게 4가지 카테고리로 나누었습니다.
1️⃣ 경제적 불평등(Inequality) 관련 기사
- 예) "미국에서 소득 격차가 확대되고 있다."
- 임금, 소득, 부의 격차를 다루는 기사
2️⃣ 일반 경제 상황(Economic Conditions) 관련 기사
- 예) "미국 경제가 경기 침체를 맞고 있다."
- 경제 상황을 다루지만 불평등과 직접적인 관련은 없는 기사
3️⃣ 임금 및 소득 변화(Wages and Income Changes) 관련 기사
- 예) "최저임금 인상이 경제에 미치는 영향"
- 특정 집단의 임금 변화는 다루지만, 사회적 불평등과 연결되지 않은 기사
4️⃣ 무관한 기사(Irrelevant)
- 예) "새로운 영화 ‘Big Business’ 개봉"
- 특정 개인의 이야기, 문화 관련 기사, 범죄 사건 등 경제적 불평등과 관련이 없는 기사
이 분류는 연구진이 직접 손으로 수행한 것으로, AI가 과연 얼마나 정확하게 이 4가지 카테고리를 구분할 수 있는지를 확인하는 것이 이번 연구의 핵심 목표였습니다.
2️⃣ LLM을 활용한 질적 코딩 실험: 프롬프트 설계
LLM을 활용해 질적 코딩을 하려면, AI에게 **명확한 지침(prompt)**을 주어야 합니다. 연구진은 이를 위해 AI에게 입력할 프롬프트를 세 가지 방식으로 설계했습니다.
🔹 (1) 기본 프롬프트 (Baseline Prompt)
이 방식에서는 AI에게 별다른 추가 정보를 주지 않고, 그냥 기사만 입력한 후 **"이 기사는 경제적 불평등과 관련이 있는가?"**라고 묻는 방식이었습니다.
👉 예제:
📝 입력:
"미국에서 소득 격차가 커지고 있으며, 최상위 1%가 전체 부의 40%를 차지하고 있다."
🤖 AI 출력:
"네, 이 기사는 경제적 불평등을 다루고 있습니다."
이 방법은 AI가 자체적으로 학습한 내용을 바탕으로 판단하는 방식이었습니다. 하지만 AI가 실제 연구자의 기준과 얼마나 일치하는지를 테스트해봐야 했습니다.
🔹 (2) 연구자가 제공한 정의 포함 (Researcher-Generated Definition)
이번에는 연구자가 직접 작성한 "경제적 불평등"의 정의를 포함한 후, AI가 이 정의를 참고하여 기사를 분류하도록 했습니다.
👉 예제:
📝 입력:
"경제적 불평등이란, 특정 계층이 다른 계층보다 소득과 자산을 훨씬 더 많이 가지게 되는 사회적 현상이다. 이제 아래 기사를 읽고, 이 정의에 따라 기사가 경제적 불평등을 다루고 있는지 판단하라."
"미국에서 소득 격차가 커지고 있으며, 최상위 1%가 전체 부의 40%를 차지하고 있다."
🤖 AI 출력:
"네, 이 기사는 연구자의 정의에 따라 경제적 불평등을 다루고 있습니다."
이 방식은 AI가 더 정확하게 연구자의 기준을 따를 수 있도록 도와주었지만, 과연 성능이 향상될지 여부는 실험을 통해 확인해야 했습니다.
🔹 (3) AI가 생성한 정의 포함 (LLM-Generated Definition)
이번에는 연구자가 정의를 주는 대신, AI 스스로 정의를 생성하도록 했습니다.
- AI에게 기존 연구자의 코딩 가이드를 요약하게 함
- AI가 만든 정의를 바탕으로 기사를 분류하도록 함
👉 예제:
📝 입력:
"경제적 불평등을 정의해봐."
(👨🔬 연구자가 제공한 기존 질적 코딩 가이드를 바탕으로 AI가 정의를 생성)
🤖 AI가 생성한 정의:
"경제적 불평등이란 특정 사회 계층 간의 소득, 재산, 기회 격차를 의미한다."
📝 입력:
"이제 아래 기사를 읽고, 이 정의에 따라 기사가 경제적 불평등을 다루고 있는지 판단하라."
"미국에서 소득 격차가 커지고 있으며, 최상위 1%가 전체 부의 40%를 차지하고 있다."
🤖 AI 출력:
"네, 이 기사는 경제적 불평등을 다루고 있습니다."
이 방법은 연구자의 개입을 최소화하고, AI가 더 유연하게 개념을 학습하도록 하는 방식이었습니다. 하지만 AI가 만든 정의가 연구자의 기대와 다를 수도 있다는 점이 문제였습니다.
3️⃣ 프롬프트 실험: 어떤 방식이 가장 효과적일까?
연구진은 위의 세 가지 프롬프트를 바탕으로 실험을 진행하며, 몇 가지 중요한 변수도 함께 실험했습니다.
✅ Zero-shot vs. Few-shot 학습
- Zero-shot: 예제 없이 AI가 스스로 판단
- Few-shot: 몇 개의 예제를 먼저 주고, AI가 학습한 후 판단
- 결과적으로, Few-shot 방식이 긴 기사에서는 오히려 성능이 떨어지는 경향을 보였습니다.
✅ 프롬프트 길이
- 정의가 길수록 정확도가 올라갈까?
- 너무 긴 프롬프트는 AI가 중요 정보를 놓칠 수도 있음
✅ 출력 형식 통제
- AI가 자유롭게 답변하면 일관성이 떨어질 가능성이 있음
- 따라서 연구진은 "Yes / No로 답변하고, 이유를 한 문장으로 설명하라" 같은 형식을 지시
실험 결과: AI는 인간 연구자만큼 정확할까?
1. LLM의 정확도 평가
AI가 분류한 결과와 기존 손 코딩 데이터 간의 일치도를 평가하기 위해 F1-score(정확도 측정 지표) 를 계산했습니다.
- "관련 기사 vs. 무관한 기사" 분류 성능
- GPT-4: F1-score 0.83
- Llama3.1: F1-score 0.80
- Gemma2: F1-score 0.79
- "불평등 기사 vs. 일반 경제 기사" 분류 성능
- GPT-4: F1-score 0.74
- Llama3: F1-score 0.70
- Gemma2: F1-score 0.73
👉 결론:
AI 모델들은 대체로 손 코딩과 비슷한 정확도를 보였으며, 일부 경우에는 기존 머신러닝 기법보다도 나은 성과를 보였습니다. 특히 GPT-4의 성능이 가장 우수했지만, 오픈소스 모델(Llama3, Gemma2)도 큰 차이는 없었습니다.
AI로 질적 연구를 대체할 수 있을까?
이 연구는 AI가 질적 코딩의 보조 도구로 유용하게 활용될 수 있음을 보여줍니다.
✅ AI가 잘하는 것:
✔️ 대량의 데이터를 빠르게 처리
✔️ 연구 보조원의 주관적 편향을 줄일 가능성
✔️ 연구자가 직접 손 코딩해야 하는 부담을 낮춰줌
❌ AI의 한계:
❌ AI가 만든 정의가 항상 신뢰할 수 있는 것은 아님
❌ 코드의 해석이 모호할 수 있음
❌ 데이터셋에 따라 성능이 달라질 수 있음
결론: AI는 연구자를 도와주는 강력한 보조 도구
LLM을 이용한 질적 코딩은 연구자의 역할을 대체하는 것이 아니라, 연구자와 협업하여 더 효율적인 분석을 가능하게 하는 도구입니다. 앞으로 AI 기술이 더 발전하면, 질적 연구의 방식도 더욱 변화할 가능성이 큽니다. 🚀
'Article Review' 카테고리의 다른 글
[정치학] Bonansinga et al (2025) 좌파 포퓰리즘도 불안을 이야기한다 (PSR) (0) | 2025.03.25 |
---|---|
[LLM/정치학] Chebrolu et al (2025) 개인적 이야기, 정치 토론을 유도하다: 정치적 무관심층을 위한 새로운 길 (0) | 2025.03.25 |
[정치학] Etzel (2025) 보수 성향 유권자들은 왜 극우 포퓰리스트 정당을 선택할까? (CEP) (0) | 2025.03.14 |
[LLM/정치학] Ng et al (2025) AI가 긴 국회의원 연설로 이들의 입장을 어떻게 파악할까? (0) | 2025.03.14 |
[실험LLM/정책학] Bai et al (2025) AI가 만든 메시지, 사람의 정치적 태도를 바꿀 수 있을까? (0) | 2025.03.14 |