[LLM/서베이] Zhang et al (2025) AI가 온라인 설문조사 데이터를 어떻게 바꾸고 있을까?
Generative AI가 온라인 설문조사 데이터를 어떻게 바꾸고 있을까?
최근 ChatGPT 같은 생성형 AI(Generative AI) 도구들이 대중화되면서, 연구자들은 한 가지 새로운 고민에 직면하게 되었습니다. 바로, 연구 참가자들이 설문조사에서 AI를 사용하고 있다는 점입니다. 설문조사나 실험에서 참가자들이 직접 자신의 생각을 적어야 하는 개방형 질문(open-ended questions)을 받을 때, 일부 참가자들은 이를 직접 작성하는 대신 AI의 도움을 받아 응답하고 있습니다.
이 연구는 바로 이러한 현상을 탐구합니다. 연구자들은 온라인 조사 플랫폼에서 설문을 진행하며, 참가자들이 AI를 얼마나, 왜, 그리고 어떻게 사용하는지 조사했습니다. 그리고 AI가 생성한 응답과 인간이 직접 작성한 응답이 어떻게 다른지 비교 분석했습니다. 결론적으로, 연구자들은 AI의 사용이 설문조사 데이터에 영향을 미칠 수 있으며, 특히 참가자들의 응답이 더 균질화(homogenization) 되고 더 긍정적(positive) 인 경향을 띄게 된다는 점을 발견했습니다.
이제 연구의 방법론과 주요 결과를 자세히 살펴보겠습니다.
연구 방법: 어떻게 AI 사용을 측정했을까?
이 연구에서는 AI가 설문조사 응답에 미치는 영향을 보다 정확하게 분석하기 위해 두 가지 접근법을 사용했습니다. 첫 번째는 설문조사를 통해 실제 연구 참가자들이 AI를 얼마나, 어떻게 사용하는지 조사하는 것이었고, 두 번째는 AI가 생성한 응답과 인간이 직접 작성한 응답을 비교하는 실험을 설계하는 것이었습니다. 각각의 연구 방법을 더 자세히 살펴보겠습니다.
1. 설문조사를 통한 AI 사용 실태 조사
연구자들은 온라인에서 설문조사 및 실험 참가자를 모집하는 플랫폼인 Prolific에서 799명의 응답자를 대상으로 한 설문조사를 진행했습니다. 이 설문을 통해 연구자들은 다음과 같은 핵심 질문을 던졌습니다.
- AI를 사용한 경험이 있는가?
- 개방형 질문(긴 답변을 요구하는 질문)에 답변할 때, AI 도구(예: ChatGPT)를 사용해 본 적이 있는가?
- 사용했다면 얼마나 자주 사용하는가? ("가끔", "자주", "항상" 등)
- AI를 사용하는 이유는 무엇인가?
- AI를 사용할 때, 주된 이유는 무엇인가? (예: 더 나은 문장을 만들기 위해, 시간을 절약하기 위해, 질문이 이해하기 어려워서 등)
- AI를 사용할 때 주로 어떤 프롬프트를 입력하는가?
- AI를 사용하지 않는 이유는 무엇인가?
- AI 사용을 피하는 참가자들은 그 이유가 무엇인가? (예: AI 사용이 비윤리적이라고 생각해서, 직접 답변하는 것이 더 정확하다고 생각해서 등)
이 설문조사는 연구자들이 AI 사용에 대한 참가자들의 솔직한 의견을 최대한 이끌어낼 수 있도록 설계되었습니다.
💡 참가자들이 솔직하게 응답하도록 하기 위해 연구팀이 신경 쓴 점
- 설문조사는 AI 사용 여부에 대한 편견을 최소화하기 위해 **"온라인 작업자가 AI를 활용하는 방식"**이라는 일반적인 주제로 포장됨.
- 참가자들이 AI를 사용한다고 해서 불이익을 받지 않는다는 점을 강조하여 응답의 정확도를 높임.
- AI 사용 여부가 연구 윤리에 영향을 미칠 수 있기 때문에 Prolific ID를 수집하지 않고 익명으로 진행하여 응답자들이 솔직한 답변을 할 수 있도록 유도.
📊 설문조사 결과: AI 사용의 실제 빈도
이 설문조사 결과에 따르면,
✔️ 34%의 참가자들이 AI를 사용한 경험이 있다고 응답했으며,
✔️ 그중 9%는 "자주" 또는 "항상" AI를 사용한다고 보고했습니다.
✔️ AI를 사용하는 주된 이유로는 "자신의 생각을 더 잘 표현하기 위해"(58%)가 가장 많았으며,
✔️ AI 사용을 피하는 주요 이유로는 "AI가 비윤리적이거나 부정확할 수 있기 때문"(35.4%)이라는 응답이 가장 많았습니다.
2. AI 응답 vs. 인간 응답 비교 실험
단순히 사람들이 AI를 사용한다고 보고하는 것만으로는 AI가 설문 응답에 어떤 영향을 미치는지 알 수 없습니다. 따라서 연구자들은 AI 응답과 인간 응답을 직접 비교하는 실험을 설계했습니다.
비교를 위해 연구자들은 **TESS(Time-Sharing Experiments for the Social Sciences)**라는 연구 프로젝트에서 수집된 개방형 질문 응답 데이터를 활용했습니다. 이 데이터는 ChatGPT 출시 이전(2022년 11월 이전)에 수집된 인간 응답을 포함하고 있어, AI가 개입하지 않은 진짜 인간의 답변과 AI가 생성한 응답을 비교하기에 적합했습니다.
🔍 비교 실험 과정
Step 1: 인간이 직접 작성한 기존 응답 데이터 확보
- TESS 데이터에는 미국의 다양한 연령, 성별, 정치적 배경을 가진 응답자들이 개방형 질문에 대해 직접 작성한 텍스트 응답이 포함됨.
- 연구자들은 이 데이터를 **AI 응답과 비교할 "인간 기준 정답(Human Baseline)"**으로 활용.
Step 2: AI에게 동일한 질문을 던지고 응답 생성
- 연구자들은 Prolific 설문조사에서 참가자들이 실제로 AI에게 입력하는 프롬프트를 수집하여, 참가자들이 실제로 사용하는 방식으로 AI에게 질문을 입력.
- AI 응답을 생성하기 위해 GPT-4o, Gemini 1.5, Claude 3.5 Sonnet 등 주요 AI 모델을 사용.
- 각 AI 모델을 사용하여 여러 버전의 응답을 생성한 후 인간 응답과 비교 분석.
Step 3: 인간 응답과 AI 응답 비교 분석
- AI가 생성한 응답과 인간이 직접 작성한 응답을 텍스트 길이, 감성 분석(sentiment analysis), 어휘 다양성(vocabulary richness), 동질성(homogeneity) 등 다양한 측면에서 비교.
- AI 응답이 인간 응답보다 더 긍정적인가?
- AI 응답이 인간 응답보다 더 동질적인가?
- AI 응답이 인간 응답보다 더 길거나 짧은가?
- AI 응답에서 더 많은 단어를 사용하지만 의미적으로 덜 다양한가?
이 분석을 통해 AI가 개방형 질문에 미치는 영향을 보다 명확하게 평가할 수 있었습니다.
주요 결과: AI가 설문조사 데이터를 어떻게 바꾸는가?
1. AI 응답은 더 길고, 어휘가 더 다양하지만, 더 동질적이다
AI가 생성한 응답은 인간이 직접 쓴 응답보다 평균적으로 더 길고, 더 많은 어휘를 포함하는 것으로 나타났습니다. 하지만 놀랍게도, AI 응답이 길고 다양한 단어를 사용함에도 불구하고 내용적으로는 서로 더 유사한 경향을 보였습니다.
- AI 응답 간 어휘 사용의 동질성(homogeneity)이 더 높음 → 즉, AI가 다양한 단어를 사용하더라도 의미적으로는 더 비슷한 내용이 반복됨.
- 인간 응답은 상대적으로 더 다양한 표현과 관점을 포함함.
2. AI 응답은 더 긍정적인 경향을 띈다
연구자들은 AI와 인간 응답의 감정적 차이를 분석하기 위해 VADER(VAder Sentiment Analysis) 감성 분석 도구를 사용했습니다. 분석 결과, AI 응답은 전반적으로 더 긍정적인 감정을 포함하는 경향을 보였습니다.
- AI 응답은 인간 응답보다 긍정적 단어(positive words)를 2배 가까이 더 많이 포함.
- 반면, 인간 응답은 부정적 감정을 나타내는 단어(negative words)를 더 많이 포함하는 경향.
- 특히 민감한 사회적 질문(예: 흑인에 대한 인식)에 대한 응답에서 인간 응답은 더 감정적인 언어를 포함하고, AI 응답은 더 중립적이고 형식적인 언어를 사용함.
3. AI는 인간이 사용하는 일부 표현(특히 부정적/비하적 표현)을 걸러낸다
특정 사회적 그룹(예: 흑인, 민주당원/공화당원)에 대한 개방형 질문에서 인간 응답과 AI 응답을 비교한 결과, 인간 응답에는 AI보다 더 감정적이고 때때로 부정적인 표현이 포함되어 있었습니다.
- 인간 응답에서는 종종 특정 집단을 묘사할 때 비하적(dehumanizing) 표현이 등장.
- AI 응답에서는 이러한 표현이 거의 등장하지 않음.
- AI는 윤리적 설계를 통해 차별적이거나 공격적인 표현을 스스로 제한하기 때문.
이 결과는 연구자들에게 AI가 조사 데이터에서 중요한 사회적 차이를 흐릴 가능성이 있다는 점을 시사합니다. 즉, AI가 "무해한" 응답을 만들어내면서 사회적 의견의 다양성을 인위적으로 감소시킬 수 있음을 의미합니다.
결론: AI 사용이 연구 데이터에 미치는 영향과 해결책
이 연구는 AI가 개방형 설문 응답을 균질화하고, 긍정적인 응답을 더 많이 생성하며, 특정 감정적 표현을 걸러낼 수 있다는 점을 보여주었습니다. 이는 연구자가 온라인 설문조사에서 AI 사용을 어떻게 다룰지 고민해야 한다는 점을 시사합니다.
연구자들을 위한 실용적 제안
- AI 사용 여부를 연구 설계 단계에서 고려할 것
- 연구자가 "AI 사용을 자제해 달라"고 요청하면 AI 사용률이 낮아질 수 있음.
- 연구 윤리를 강조하여 참가자들이 더 진솔한 응답을 하도록 유도할 수 있음.
- AI 사용을 탐지하는 방법 개발
- 연구자는 응답 시간이 너무 짧거나 문체가 과도하게 공식적인 경우 AI 응답일 가능성을 고려해야 함.
- 텍스트의 동질성을 측정하여 AI 응답이 포함되었는지 감지하는 방법도 활용 가능.
- AI 사용을 허용하되, 그 영향을 분석할 수 있도록 연구 설계 조정
- AI 사용자를 추적하여 AI 사용이 데이터에 미치는 영향을 통제할 수 있음.
- AI가 응답을 생성할 때 사용하는 프롬프트를 연구자가 직접 설정하여, AI가 균질화 효과를 최소화하도록 유도할 수 있음.
마무리하며
이 연구는 AI의 확산이 단순히 개인의 글쓰기 방식에 영향을 미치는 것이 아니라, 사회과학 연구 자체의 데이터 수집 방식에도 영향을 미칠 수 있다는 점을 보여주었습니다. 연구자들은 앞으로 설문조사 설계 단계에서 AI의 역할을 적극적으로 고려해야 하며, AI의 장점과 한계를 이해한 상태에서 연구 방법을 조정해야 할 것입니다.