Article Review

[LLM/질적연구] Than et al (2025) GPT와 LLM이 질적 연구를 어떻게 바꿀까?

Dr. Julia 2025. 3. 14. 03:27

인공지능과 질적 코딩의 만남: GPT와 LLM이 연구를 어떻게 바꿀까?

질적 코딩, 이젠 AI가 도와줄까?

사회과학 연구자들에게 질적 텍스트 분석(qualitative text analysis)은 필수적인 도구입니다. 뉴스 기사, 인터뷰 기록, 연설문 등 방대한 텍스트에서 의미를 추출하려면 연구자들이 직접 읽고 코드(코딩)를 붙여야 했죠. 하지만 이 과정은 매우 시간이 많이 걸리고, 연구 보조원이 여러 명 참여할 경우 일관성을 유지하는 것도 어렵습니다.

최근 들어 연구자들은 인공지능(AI), 특히 대형 언어 모델(LLM, Large Language Models)을 활용해 이 문제를 해결하려는 시도를 하고 있습니다. 2022년 OpenAI가 ChatGPT를 출시하면서, 복잡한 프로그래밍 없이도 자연어로 AI와 상호작용하며 데이터를 분석할 수 있는 길이 열렸죠.

이 논문에서는 GPT와 같은 생성형 LLM이 기존의 질적 코딩 방식을 얼마나 잘 재현하고, 또 보완할 수 있는지를 실험했습니다. 연구자들은 여러 개의 AI 모델을 활용해 질적 코딩을 수행하고, 기존의 손 코딩(hand coding)과 비교해 얼마나 정확하게 수행할 수 있는지를 평가했습니다.

질적 코딩과 AI의 만남: 연구 질문과 실험 목표

연구자들이 던진 핵심 질문은 다음과 같습니다.

생성형 LLM이 전통적인 질적 코딩 방식을 얼마나 효과적으로 재현할 수 있을까?
LLM을 활용한 새로운 질적 분석 워크플로우(workflow)는 기존 방법과 어떻게 다를까?
LLM이 학습한 정의(definition)나 개념들이 실제로 연구자가 의도한 바를 반영할 수 있을까?
개방형(Open-source) LLM과 폐쇄형(Closed-source) LLM(예: GPT-4) 중 어떤 것이 더 효과적일까?

이를 확인하기 위해 연구진은 GPT-4, Llama3(70B), Llama3.1(70B), Gemma2(27B) 등 여러 AI 모델을 이용해 뉴스 기사를 분석하는 실험을 진행했습니다.

AI를 활용한 질적 코딩 실험: 어떻게 연구했을까?

질적 코딩은 연구자가 텍스트에서 의미 있는 패턴을 찾아 태그(코드)를 붙이는 과정입니다. 예를 들어, 뉴스 기사에서 "불평등"이라는 개념이 등장하는지 찾고, 이를 **"경제적 불평등"**이라는 코드로 분류하는 것이죠. 하지만 이 작업은 방대한 데이터를 처리해야 하는 경우 상당히 시간이 많이 걸리고, 여러 명이 참여하면 일관성을 유지하는 것도 어렵습니다.

그렇다면 AI, 특히 **GPT-4와 같은 대형 언어 모델(LLM, Large Language Models)**을 활용하면 이 과정을 더 빠르고 일관되게 수행할 수 있을까요? 연구진은 이를 알아보기 위해 1,253개의 뉴스 기사를 AI로 분석하는 실험을 진행했습니다.

1️⃣ 분석 대상: 1,253개의 뉴스 기사

연구진은 미국의 주요 주간 뉴스 잡지인 Time, Newsweek, U.S. News & World Report에서 1980년부터 2012년까지 발행된 1,253개의 기사를 수집했습니다.

이 기사들은 연구자가 이미 **손으로 직접 코딩(hand coding)**을 해둔 데이터셋이었습니다. 즉, 연구진이 이미 사람이 분류한 결과를 가지고 있었기 때문에 AI가 얼마나 정확하게 분류하는지를 기존 데이터와 비교할 수 있었습니다.

기사의 내용은 경제와 관련된 것이었지만, 모든 기사가 경제적 불평등을 다룬 것은 아니었습니다. 연구진은 이 기사를 크게 4가지 카테고리로 나누었습니다.

1️⃣ 경제적 불평등(Inequality) 관련 기사

예) "미국에서 소득 격차가 확대되고 있다."
임금, 소득, 부의 격차를 다루는 기사

2️⃣ 일반 경제 상황(Economic Conditions) 관련 기사

예) "미국 경제가 경기 침체를 맞고 있다."
경제 상황을 다루지만 불평등과 직접적인 관련은 없는 기사

3️⃣ 임금 및 소득 변화(Wages and Income Changes) 관련 기사

예) "최저임금 인상이 경제에 미치는 영향"
특정 집단의 임금 변화는 다루지만, 사회적 불평등과 연결되지 않은 기사

4️⃣ 무관한 기사(Irrelevant)

예) "새로운 영화 ‘Big Business’ 개봉"
특정 개인의 이야기, 문화 관련 기사, 범죄 사건 등 경제적 불평등과 관련이 없는 기사

이 분류는 연구진이 직접 손으로 수행한 것으로, AI가 과연 얼마나 정확하게 이 4가지 카테고리를 구분할 수 있는지를 확인하는 것이 이번 연구의 핵심 목표였습니다.

2️⃣ LLM을 활용한 질적 코딩 실험: 프롬프트 설계

LLM을 활용해 질적 코딩을 하려면, AI에게 **명확한 지침(prompt)**을 주어야 합니다. 연구진은 이를 위해 AI에게 입력할 프롬프트를 세 가지 방식으로 설계했습니다.

🔹 (1) 기본 프롬프트 (Baseline Prompt)

이 방식에서는 AI에게 별다른 추가 정보를 주지 않고, 그냥 기사만 입력한 후 **"이 기사는 경제적 불평등과 관련이 있는가?"**라고 묻는 방식이었습니다.

👉 예제:
📝 입력:
"미국에서 소득 격차가 커지고 있으며, 최상위 1%가 전체 부의 40%를 차지하고 있다."

🤖 AI 출력:
"네, 이 기사는 경제적 불평등을 다루고 있습니다."

이 방법은 AI가 자체적으로 학습한 내용을 바탕으로 판단하는 방식이었습니다. 하지만 AI가 실제 연구자의 기준과 얼마나 일치하는지를 테스트해봐야 했습니다.

🔹 (2) 연구자가 제공한 정의 포함 (Researcher-Generated Definition)

이번에는 연구자가 직접 작성한 "경제적 불평등"의 정의를 포함한 후, AI가 이 정의를 참고하여 기사를 분류하도록 했습니다.

👉 예제:
📝 입력:
"경제적 불평등이란, 특정 계층이 다른 계층보다 소득과 자산을 훨씬 더 많이 가지게 되는 사회적 현상이다. 이제 아래 기사를 읽고, 이 정의에 따라 기사가 경제적 불평등을 다루고 있는지 판단하라."

"미국에서 소득 격차가 커지고 있으며, 최상위 1%가 전체 부의 40%를 차지하고 있다."

🤖 AI 출력:
"네, 이 기사는 연구자의 정의에 따라 경제적 불평등을 다루고 있습니다."

이 방식은 AI가 더 정확하게 연구자의 기준을 따를 수 있도록 도와주었지만, 과연 성능이 향상될지 여부는 실험을 통해 확인해야 했습니다.

🔹 (3) AI가 생성한 정의 포함 (LLM-Generated Definition)

이번에는 연구자가 정의를 주는 대신, AI 스스로 정의를 생성하도록 했습니다.

AI에게 기존 연구자의 코딩 가이드를 요약하게 함
AI가 만든 정의를 바탕으로 기사를 분류하도록 함

👉 예제:
📝 입력:
"경제적 불평등을 정의해봐."
(👨‍🔬 연구자가 제공한 기존 질적 코딩 가이드를 바탕으로 AI가 정의를 생성)

🤖 AI가 생성한 정의:
"경제적 불평등이란 특정 사회 계층 간의 소득, 재산, 기회 격차를 의미한다."

📝 입력:
"이제 아래 기사를 읽고, 이 정의에 따라 기사가 경제적 불평등을 다루고 있는지 판단하라."

"미국에서 소득 격차가 커지고 있으며, 최상위 1%가 전체 부의 40%를 차지하고 있다."

🤖 AI 출력:
"네, 이 기사는 경제적 불평등을 다루고 있습니다."

이 방법은 연구자의 개입을 최소화하고, AI가 더 유연하게 개념을 학습하도록 하는 방식이었습니다. 하지만 AI가 만든 정의가 연구자의 기대와 다를 수도 있다는 점이 문제였습니다.

3️⃣ 프롬프트 실험: 어떤 방식이 가장 효과적일까?

연구진은 위의 세 가지 프롬프트를 바탕으로 실험을 진행하며, 몇 가지 중요한 변수도 함께 실험했습니다.

✅ Zero-shot vs. Few-shot 학습

Zero-shot: 예제 없이 AI가 스스로 판단
Few-shot: 몇 개의 예제를 먼저 주고, AI가 학습한 후 판단
결과적으로, Few-shot 방식이 긴 기사에서는 오히려 성능이 떨어지는 경향을 보였습니다.

✅ 프롬프트 길이

정의가 길수록 정확도가 올라갈까?
너무 긴 프롬프트는 AI가 중요 정보를 놓칠 수도 있음

✅ 출력 형식 통제

AI가 자유롭게 답변하면 일관성이 떨어질 가능성이 있음
따라서 연구진은 "Yes / No로 답변하고, 이유를 한 문장으로 설명하라" 같은 형식을 지시

실험 결과: AI는 인간 연구자만큼 정확할까?

1. LLM의 정확도 평가

AI가 분류한 결과와 기존 손 코딩 데이터 간의 일치도를 평가하기 위해 F1-score(정확도 측정 지표) 를 계산했습니다.

"관련 기사 vs. 무관한 기사" 분류 성능
- GPT-4: F1-score 0.83
- Llama3.1: F1-score 0.80
- Gemma2: F1-score 0.79
"불평등 기사 vs. 일반 경제 기사" 분류 성능
- GPT-4: F1-score 0.74
- Llama3: F1-score 0.70
- Gemma2: F1-score 0.73

👉 결론:
AI 모델들은 대체로 손 코딩과 비슷한 정확도를 보였으며, 일부 경우에는 기존 머신러닝 기법보다도 나은 성과를 보였습니다. 특히 GPT-4의 성능이 가장 우수했지만, 오픈소스 모델(Llama3, Gemma2)도 큰 차이는 없었습니다.

AI로 질적 연구를 대체할 수 있을까?

이 연구는 AI가 질적 코딩의 보조 도구로 유용하게 활용될 수 있음을 보여줍니다.

✅ AI가 잘하는 것:
✔️ 대량의 데이터를 빠르게 처리
✔️ 연구 보조원의 주관적 편향을 줄일 가능성
✔️ 연구자가 직접 손 코딩해야 하는 부담을 낮춰줌

❌ AI의 한계:
❌ AI가 만든 정의가 항상 신뢰할 수 있는 것은 아님
❌ 코드의 해석이 모호할 수 있음
❌ 데이터셋에 따라 성능이 달라질 수 있음

결론: AI는 연구자를 도와주는 강력한 보조 도구

LLM을 이용한 질적 코딩은 연구자의 역할을 대체하는 것이 아니라, 연구자와 협업하여 더 효율적인 분석을 가능하게 하는 도구입니다. 앞으로 AI 기술이 더 발전하면, 질적 연구의 방식도 더욱 변화할 가능성이 큽니다. 🚀

저작자표시 비영리 변경금지 (새창열림)

'Article Review' 카테고리의 다른 글

[정치학] Bonansinga et al (2025) 좌파 포퓰리즘도 불안을 이야기한다 (PSR) (0)	2025.03.25
[LLM/정치학] Chebrolu et al (2025) 개인적 이야기, 정치 토론을 유도하다: 정치적 무관심층을 위한 새로운 길 (0)	2025.03.25
[정치학] Etzel (2025) 보수 성향 유권자들은 왜 극우 포퓰리스트 정당을 선택할까? (CEP) (0)	2025.03.14
[LLM/정치학] Ng et al (2025) AI가 긴 국회의원 연설로 이들의 입장을 어떻게 파악할까? (0)	2025.03.14
[실험LLM/정책학] Bai et al (2025) AI가 만든 메시지, 사람의 정치적 태도를 바꿀 수 있을까? (0)	2025.03.14

현재글[LLM/질적연구] Than et al (2025) GPT와 LLM이 질적 연구를 어떻게 바꿀까?

낭만과 열정사이

미국 대학 교수. 예술과 낭만이 있는 삶을 사랑하고, 가르치는 것과 연구를 업으로 삼습니다. 끊임없이 꿈꾸는 삶을 지향합니다.

정치학, 논문리뷰, 다중에이전트, 실험, 정치학llm, 정치네트워크, 텍스트분석, 포퓰리즘, 설문, 양극화, 커뮤니케이션, 서베이llm, 프롬프트엔지니어링, 박사, LLM, 사회과학, 정치적중립성, 랭체인, 연구자, NLP,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

낭만과 열정사이

[LLM/질적연구] Than et al (2025) GPT와 LLM이 질적 연구를 어떻게 바꿀까?

인공지능과 질적 코딩의 만남: GPT와 LLM이 연구를 어떻게 바꿀까?

질적 코딩, 이젠 AI가 도와줄까?

질적 코딩과 AI의 만남: 연구 질문과 실험 목표

AI를 활용한 질적 코딩 실험: 어떻게 연구했을까?

1️⃣ 분석 대상: 1,253개의 뉴스 기사

2️⃣ LLM을 활용한 질적 코딩 실험: 프롬프트 설계

🔹 (1) 기본 프롬프트 (Baseline Prompt)

🔹 (2) 연구자가 제공한 정의 포함 (Researcher-Generated Definition)

🔹 (3) AI가 생성한 정의 포함 (LLM-Generated Definition)

3️⃣ 프롬프트 실험: 어떤 방식이 가장 효과적일까?

실험 결과: AI는 인간 연구자만큼 정확할까?

1. LLM의 정확도 평가

AI로 질적 연구를 대체할 수 있을까?

결론: AI는 연구자를 도와주는 강력한 보조 도구

'Article Review' 카테고리의 다른 글

'Article Review'의 다른글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[LLM/질적연구] Than et al (2025) GPT와 LLM이 질적 연구를 어떻게 바꿀까?

인공지능과 질적 코딩의 만남: GPT와 LLM이 연구를 어떻게 바꿀까?

질적 코딩, 이젠 AI가 도와줄까?

질적 코딩과 AI의 만남: 연구 질문과 실험 목표

AI를 활용한 질적 코딩 실험: 어떻게 연구했을까?

1️⃣ 분석 대상: 1,253개의 뉴스 기사

2️⃣ LLM을 활용한 질적 코딩 실험: 프롬프트 설계

🔹 (1) 기본 프롬프트 (Baseline Prompt)

🔹 (2) 연구자가 제공한 정의 포함 (Researcher-Generated Definition)

🔹 (3) AI가 생성한 정의 포함 (LLM-Generated Definition)

3️⃣ 프롬프트 실험: 어떤 방식이 가장 효과적일까?

실험 결과: AI는 인간 연구자만큼 정확할까?

1. LLM의 정확도 평가

AI로 질적 연구를 대체할 수 있을까?

결론: AI는 연구자를 도와주는 강력한 보조 도구

'Article Review' 카테고리의 다른 글

'Article Review'의 다른글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역