LLM은 정치 커뮤니티에서 인간처럼 말할 수 있을까?
극단적 정치 댓글을 ‘학습한’ AI가 실제 유저처럼 보인다면 어떤 일이 벌어질까?
이 질문에 답하고자 한 연구가 등장했다. 바로 2025년 6월에 공개된 Pazzaglia 외(2025)의 논문이다. 이들은 Reddit의 극단화된 정치 커뮤니티에서 수집한 실제 댓글 데이터를 기반으로, 오픈소스 대형언어모델(LLM)을 파인튜닝하고, 이 모델이 얼마나 ‘그럴듯한’ 정치 댓글을 만들어낼 수 있는지 실험했다.
결론부터 말하면, 이 AI는 인간 댓글보다 더 인간같은 글을 쓸 수 있었다. 그것도 논쟁적이고, 설득력 있으며, 편향된 톤을 그대로 살려서 말이다.
왜 이런 연구가 중요할까?
"AI가 쓴 정치 댓글이 사람처럼 보인다면, 우리는 그걸 어떻게 구별할 수 있을까?"
이 질문은 단순한 호기심의 차원이 아닙니다. 지금 우리가 마주하고 있는 현실, 특히 디지털 정치 커뮤니케이션의 맥락에서 매우 본질적이고 시급한 문제입니다. 이 연구는 바로 그 지점에서 출발합니다.
1️⃣ AI는 지금도 이미 ‘참전’하고 있다
우리가 소셜미디어에서 읽는 정치 글들. 정말 모두 인간이 쓴 것일까요?
이미 다수의 연구들이 자동화된 계정(bot) 이 온라인 정치 담론에 깊숙이 개입하고 있음을 밝혀왔습니다. 대표적으로 Feng et al. (2023)은 TwiBot-22라는 대규모 트위터 봇 데이터셋을 기반으로, LLM 기반의 소셜 봇들이 인간처럼 보이는 댓글을 퍼뜨리며 정치적 분열을 조장하고 있다고 경고했습니다.
이제 봇들은 더 이상 ‘허접한 문장 몇 개’만 뿌리는 존재가 아닙니다.
최신 언어모델을 기반으로 한 소셜봇은:
- 상황에 맞는 언어를 이해하고,
- 감정과 논리를 활용하며,
- 특정 정치 성향에 맞춰 말합니다.
이 논문은 바로 그 가능성을 실험합니다. "LLM을 극단적 정치 커뮤니티로 훈련시키면 실제 사람처럼 설득력 있는 댓글을 쓸 수 있는가?"
2️⃣ 기존 디텍션 기술이 무력화될 수 있다
기존의 봇 탐지 시스템은 대부분 두 가지에 의존합니다:
- 행동 기반 탐지 (behavioral anomaly): 비정상적인 활동 패턴
- 네트워크 기반 탐지: 특정 그룹이 동시에 같은 메시지를 퍼뜨리는 현상
하지만 최신 LLM 기반 봇은 다릅니다.
Gao et al. (2023)와 Qiao et al. (2024)는 각각의 연구에서 다음을 지적합니다:
LLM 기반 소셜 에이전트는 문장 수준에서 자연스럽고, 사람처럼 의견을 바꾸거나 유머를 섞는 것도 가능하다. 따라서 기존의 디텍션 방식은 거의 무용지물이다.
이 말은 결국, 사람과 AI를 구분할 수 없는 정치 담론의 시대가 도래했다는 것입니다.
3️⃣ 정치 담론의 질적 악화를 초래할 수 있다
LLM은 사실을 기반으로 글을 쓰는 데 그치지 않습니다.
Jurafsky & Martin (2024)는 최신 LLM들이 사실 자체보다도 ‘설득 기술’을 학습한다는 점을 강조합니다.
다시 말해, 거짓을 말하지 않더라도 사람을 특정 방향으로 설득하는 편향적 화법을 재현할 수 있다는 것입니다.
이 논문은 특히 이 지점에 주목합니다:
- 정치 커뮤니티에서 쓰이는 레토릭(화법)
- 감정적 호소, 엘리트 비난, 반대 진영 공격 등
- 이런 것들을 AI가 학습하면, 사람들 사이의 대화를 점점 더 극단화시키는 역할을 할 수 있음
Sun et al. (2024)는 이런 AI 기반 담론이 기존의 팩트체크 체계를 회피한다고 경고합니다. 왜냐하면 이들은 거짓을 말하지 않아도, 사람이 느끼기에 진짜처럼 들리는, 이데올로기적으로 편향된 언어를 구사하기 때문입니다.
4️⃣ 플랫폼 알고리즘과 결합하면 위험은 증폭된다
Yang et al. (2020)은 소셜미디어 알고리즘이 강한 감정, 극단적 의견에 높은 가중치를 부여한다고 분석했습니다.
여기서 LLM 기반 편향 댓글이 결합된다면?
- 자극적인 AI 댓글이 상위 노출
- 인간 사용자들의 반응이 더 강해짐
- 플랫폼은 더 많은 추천과 노출을 줌
- 사람들은 그것이 '진짜 여론'이라 착각
이런 방식으로, AI가 만든 의견이 사람들의 인식과 여론 형성에 실질적 영향을 줄 수 있다는 점이 매우 위험합니다.
5️⃣ 규제는 한참 뒤처져 있다
가장 큰 문제는, 지금 이 모든 기술이 오픈소스로 누구나 쉽게 접근 가능하다는 것입니다.
- 이 논문에 사용된 LLaMA-2 Chat 7B 모델도 무료
- 파인튜닝은 2시간이면 끝남
- Reddit이나 4chan에서 수집한 데이터로 극단적 정치화도 가능
하지만, 이런 AI 콘텐츠가 퍼질 경우 어떤 법적 책임이 있는가, 플랫폼이 막을 권한과 의무는 무엇인가에 대해서는 아직 명확한 기준이 없습니다.
논문에서는 이 지점에서 플랫폼 규제, AI 거버넌스, 탐지 기술의 병행 발전이 필수적이라고 강조합니다.
실험 설계: Reddit 정치 댓글로 LLaMA-2 모델을 훈련하다
"실제 사람처럼 보이는 편향된 정치 댓글을 AI가 만들 수 있을까?"
이 질문에 답하기 위해 연구팀은 Reddit이라는 거대한 정치 담론 플랫폼에서 실험을 시작했다. Reddit은 그 구조상 특정 정치 성향을 중심으로 모인 커뮤니티(서브레딧)가 명확히 존재하고, 공개된 API를 통해 데이터를 쉽게 수집할 수 있다. 즉, ‘좌’와 ‘우’, ‘음모론자’와 ‘진보주의자’가 자유롭게 부딪히는 생생한 정치 언어 데이터베이스인 셈이다.
🔍 1단계: 정치적 커뮤니티 선정 – Reddit 속 이념 전쟁터를 찾다
AI가 현실의 정치 담론을 흉내 내려면, 그 학습 대상이 되는 데이터부터 충분히 ‘정치적’이고, ‘편향된’ 성격을 띠어야 한다. 그래서 연구팀은 Reddit 내에서도 이념적으로 뚜렷한 커뮤니티(subreddit) 들을 선별하는 작업부터 시작했다.
Reddit은 주제별로 분리된 수많은 서브레딧(subreddit)으로 구성된 거대한 온라인 토론장이다. 그 중에서도 일부는 매우 강한 정치 성향을 갖고 있으며, 사용자가 자발적으로 생산한 의견이 활발하게 오가는 공간이다. 연구팀은 이러한 서브레딧을 좌파, 우파, 음모론자, 유명 인플루언서 추종 커뮤니티로 분류해 총 16개 서브레딧을 선정했다.
✅ 서브레딧 선정 기준
- 정치적 성향이 분명할 것
- 활성 사용자 기반이 있을 것
- 구체적인 이슈나 인물을 중심으로 강한 의견이 오갈 것
📌 최종 선정된 서브레딧 목록
우파 커뮤니티 | r/trump, r/Republican, r/benshapiro, r/TrueChristian |
좌파/진보 커뮤니티 | r/IncelTears, r/GenderCynical, r/europe |
음모론 커뮤니티 | r/conspiracy, r/flatearth, r/skeptic |
인플루언서 중심 커뮤니티 | r/JoeRogan, r/elonmusk, r/stevencrowder |
이 커뮤니티들은 단순한 의견 교류가 아니라, 종종 상대 진영을 조롱하거나, 선동적인 표현을 반복하는 특징을 가진다. 따라서 AI가 이런 환경을 학습하게 되면 자연스럽게 편향된 화법과 감정적 논리를 습득할 가능성이 높다. 이 점이 바로 연구자들이 Reddit을 택한 이유다.
💾 2단계: 데이터 크롤링 – 인간의 대화를 AI에 학습시키기 위한 정밀 수집
커뮤니티를 선정했다면 이제 본격적으로 데이터 수집(Crawling) 단계에 돌입한다. 연구팀은 Reddit의 공개 API를 활용해 각 커뮤니티에서 실제 사용자들이 작성한 댓글과 그에 대한 답글을 수집했다.
🧰 사용 도구
- PRAW (Python Reddit API Wrapper): Python 기반의 Reddit 크롤링 라이브러리
- 재귀적 수집 구조: 원글 → 댓글 → 댓글의 답글까지 전부 추적
🔎 수집 범위
- 각 서브레딧에서 상위 인기 게시글 1502개를 선택
→ "hot" 혹은 "top" 정렬 기준으로 높은 상호작용을 보인 글들 위주 - 각 게시글에 달린 모든 댓글 스레드를 재귀적으로 수집
→ 댓글뿐 아니라 대댓글 구조까지 모두 확보
💡 왜 댓글–답글 구조를 선택했을까?
단순히 댓글만 수집하면 ‘의견’은 있을 수 있지만, 상호작용의 맥락이 없다. 연구팀은 LLM에게 사람 간의 대화 흐름과 반응 패턴을 학습시키고자 했기 때문에, 반드시 ‘누가 어떤 말에 어떻게 반응했는가’를 담은 댓글–답글 쌍(comment–reply pair) 형식으로 데이터를 구성했다.
즉, 이 단계에서 수집한 데이터는 다음과 같은 구조를 띤다:
이런 식의 쌍을 통해 모델은:
- 특정한 논조에 어떻게 반응하는지
- 공격과 방어의 수사학적 패턴
- 감정 표현 방식
- 상호작용적 구조
를 실제 Reddit 이용자처럼 흉내낼 수 있게 된다.
🔒 데이터 품질 관리
단순히 긁어온 댓글을 그대로 쓰지 않았다. 연구팀은 다음과 같은 기준으로 데이터 정제(cleaning) 작업을 실시했다.
- 링크나 광고성 문구 제거
- 너무 짧거나 불완전한 댓글 삭제
- 중복 댓글 제거
- moderator의 시스템 메시지 제거
- 자동 생성된 bot 댓글 필터링
이러한 전처리 과정을 통해, 최종적으로 얻어진 데이터는 모델 학습에 최적화된 인간 대화 데이터셋이 되었다.
🧹 3단계: 전처리 – 인간 중심의 텍스트만 남기기
AI에게 어떤 데이터를 먹이느냐에 따라, 어떤 AI가 나올지가 결정된다.
이 말은 특히 정치 담론처럼 미묘하고 감정적인 주제를 다룰 때 더욱 중요하다. Reddit에서 수집한 댓글–답글 데이터는 그 자체로도 소중하지만, 그 안에는 AI 훈련에 **적합하지 않은 ‘잡음(noise)’과 ‘오염된 요소들’**이 상당히 포함되어 있다.
그래서 연구팀은 이 단계에서 철저한 데이터 정제(cleaning and preprocessing) 작업을 실시한다. 핵심 목표는 다음과 같다:
“AI가 학습하는 모든 문장이 실제 사람이 작성한, 자연스럽고 맥락 있는 정치적 대화가 되도록 하자.”
🧼 어떤 걸 제거했을까?
다음은 연구팀이 제거하거나 수정한 주요 항목이다:
링크(URL), 인용, 해시태그 | AI가 문맥을 이해하는 데 방해만 됨. 실제 토론 내용과 무관 |
중복 댓글 | 훈련 데이터를 왜곡하거나 동일 문장을 반복 학습하게 만들 수 있음 |
봇이 작성한 것으로 추정되는 메시지 | 이미 자동화된 언어이므로, ‘인간처럼 보이는 AI’를 만들기 위한 학습에 방해됨 |
Moderator 시스템 메시지 | 예: "This comment has been removed by a moderator" 같은 자동 알림은 무의미 |
너무 짧은 댓글 | “LOL”, “Agreed.”, “No.”처럼 정보량이 너무 적은 글은 훈련에 거의 도움이 되지 않음 |
🧾 구조 유지 – 댓글–답글 짝 유지
특히 중요한 점은 댓글과 그에 대한 답글 쌍(comment–reply pair)을 절대 분리하지 않았다는 것이다.
이 쌍은 단순한 문장이 아니라, 대화 맥락과 반응의 구조를 담고 있기 때문이다.
예를 들어,
이런 구조가 반복되면 AI는 ‘보수-진보 간 논박 구조’나 ‘주장-반박-재반박’ 같은 **정치적 수사 패턴(rhetorical pattern)**을 자연스럽게 익힐 수 있다.
정리하자면, 전처리의 핵심은 다음과 같다:
- AI가 혼란스럽지 않도록 불필요한 정보 제거
- 최대한 사람처럼 보이는 글만 추출
- 대화 맥락이 유지된 형태로 구조화
이 과정을 거쳐, 수천 개의 고품질 대화 쌍이 훈련용 데이터셋으로 탄생하게 된다.
🤖 4단계: LLaMA-2 모델 선정 및 파인튜닝 구조 설계
전처리가 끝났다면 이제는 본격적으로 AI에게 그 데이터를 ‘주입’하는 작업이다. 이 과정에서 연구팀은 어떤 언어모델을 선택할지, 어떤 방식으로 훈련할지, 얼마나 조정할지를 결정해야 했다.
✅ 모델 선택: LLaMA-2 Chat 7B
연구팀은 Meta에서 개발한 오픈소스 LLM인 LLaMA-2 Chat 7B를 선택했다. 이 모델은 대화형(Chat) 세팅에 최적화되어 있고, 다음과 같은 장점이 있다:
오픈소스 | 연구자가 자유롭게 접근하고 fine-tuning 가능 |
적절한 크기 | 70억 파라미터는 성능과 자원 효율성의 균형을 제공 |
대화형 설계 | Reddit 댓글처럼 상호작용 기반 언어에 적합 |
풍부한 커뮤니티 지원 | LLaMA 계열은 연구자 및 개발자 커뮤니티의 지원도 활발 |
🛠️ 파인튜닝 기법: LoRA + QLoRA 조합
🧩 LoRA (Low-Rank Adaptation)
LLaMA 모델을 처음부터 다시 학습하려면 엄청난 자원과 시간, 비용이 든다. 이를 피하면서도 모델의 일부분만 빠르게 조정하는 방법이 바로 LoRA다.
- 각 Transformer 층에 학습 가능한 작은 행렬만 삽입
- 원래 모델의 가중치는 그대로 둠 (non-destructive)
- 학습 속도 빠르고 GPU 메모리 소모 적음
이 방식은 전체 파라미터 중 약 1.13%만 조정하며,
- 전체 43.54억 파라미터 중
- 약 39,976,960개만 학습됨
이렇게 제한된 범위로도 AI가 정치 커뮤니티의 언어 스타일을 학습하는 데는 충분했다.
🧮 QLoRA (Quantized LoRA)
LoRA의 장점을 더 확장한 것이 QLoRA이다.
QLoRA는 모델 파라미터를 **4-bit 정밀도로 양자화(quantization)**하여 저장 공간을 줄이고 학습 효율을 높인다.
- 정밀도: NormalFloat (NF4) 포맷 사용
- 연산은 FP16으로 처리하여 성능 손실 없음
- GPU 메모리 사용량 극소화 → 소비자 수준 장비에서도 fine-tuning 가능
⚙️ 학습 설정 (Hyperparameters)
GPU 환경 | Google Colab Pro, A100 8개 |
배치 크기 (batch size) | 1 |
학습률 (learning rate) | 2 × 10⁻⁴ |
최적화기 (optimizer) | Paged AdamW (8bit) |
에폭 (epochs) | 2 |
전체 학습 시간 | 약 2.5시간 |
학습 입력 형식은 다음과 같이 구성되었다:
이 단순한 형식이 Reddit의 자연스러운 대화 흐름을 재현하기에 매우 효과적이었다.
정리하자면
3단계 전처리에서는:
- 정제된 사람 중심 정치 대화만 남기고
- 불필요한 정보와 자동 메시지를 제거하며
- 댓글–답글 구조를 유지하는 대화형 데이터셋을 만들었다.
4단계 모델 설계에서는:
- LLaMA-2 Chat 7B를 선정하고
- LoRA + QLoRA 조합으로 효율적이고 빠른 fine-tuning을 수행했으며
- 전체 모델 중 약 1.1%만 조정해도 AI는 Reddit 스타일을 모방할 수 있게 되었다.
이로써 모델은 사람처럼 보이는 정치 댓글 생성기로 변모할 준비를 마친 것이다.
🧪 5단계: 실험 설정 – ‘어떤 조건이 가장 사람 같은가?’
앞선 단계에서 Reddit 정치 커뮤니티의 댓글–답글을 기반으로 모델을 훈련시켰다면, 이제 핵심 질문에 답할 차례다:
"어떤 조건에서 생성된 AI 댓글이 가장 사람처럼 보이는가?"
이를 검증하기 위해 연구팀은 fine-tuning 여부와 prompting 여부를 조합한 4가지 실험 조건을 설계했다. 각 조건은 Reddit에서 수집한 테스트 댓글(test comment)에 대해 AI가 어떻게 반응을 생성하는지를 다르게 설정한다.
🔀 실험 조건: AI 모델 4가지 버전
AI-1 | Raw Unprompted | 사전 훈련된 LLaMA-2 Chat 7B 모델, 별도 조정 없이 사용 | 가장 ‘기본값’에 가까운 상태 |
AI-2 | Raw Prompted | 사전 훈련된 모델에 Reddit 맥락 설명 프롬프트만 추가 | Prompt만으로 자연스러움을 높일 수 있는지 평가 |
AI-3 | Fine-Tuned Unprompted | Reddit 데이터로 파인튜닝된 모델, 프롬프트 없이 사용 | 학습 효과만으로 얼마나 그럴듯한지 평가 |
AI-4 | Fine-Tuned Prompted | Reddit 데이터로 학습된 모델 + 맥락 설명 프롬프트 사용 | 가장 최적화된 조합 |
🧠 왜 이렇게 나눴을까?
이 네 가지 조건은 두 개의 요인을 조합한 결과다:
- 모델이 Reddit 정치 담론을 학습했는가? (Fine-tuning 여부)
- 프롬프트에 Reddit 상황 설명이 포함되어 있는가? (Prompting 여부)
이렇게 나누면 각각의 요인이 사람처럼 보이는 언어 생성에 얼마나 기여하는지를 분리해서 평가할 수 있다.
📄 프롬프트 구성 방식
Prompting은 단순한 명령이 아니라, AI에게 상황과 역할을 부여하는 기법이다. 특히 Reddit처럼 맥락과 분위기가 중요한 공간에선 프롬프트 하나로도 결과가 크게 달라진다.
연구팀은 다음과 같은 프롬프트를 AI에게 제공했다:
이 프롬프트는 AI에게 단순히 "답장을 해줘"라고 요청하는 것이 아니라:
- 당신은 지금 Reddit 사용자이고,
- [TITLE]이라는 글을 보고 있으며,
- [SUBREDDIT]이라는 공간의 분위기 속에서,
- 댓글을 달아야 한다.
라는 ‘사회적 역할’과 ‘대화 문맥’을 부여하는 방식이다.
🧪 테스트 구성 방법
각 모델은 동일한 입력 조건에서 **총 48개의 Reddit 댓글(test comments)**에 대해 답글을 생성하도록 했다.
즉, AI는 아래와 같은 입력을 받고 답글을 작성했다:
이 입력은 모든 모델에 동일하게 주어졌고, 각 모델의 설정에 따라 출력 결과가 어떻게 달라지는지를 비교 평가했다.
🎯 목표: 두 가지 핵심 질문에 답하는 것
- Fine-tuning만으로도 AI가 충분히 사람처럼 보일 수 있을까?
→ AI-3 vs AI-1 비교 - Prompting만으로도 스타일이 자연스러워질까?
→ AI-2 vs AI-1 비교 - Fine-tuning과 Prompting을 함께 하면 성능이 더 좋아질까?
→ AI-4 vs 다른 모델들 비교
요약하자면…
연구팀은 Reddit 정치 커뮤니티에서 수집한 테스트 댓글 48개에 대해 다음 네 가지 방식으로 AI의 답글을 생성시켰다:
- AI-1: 원본 모델 (LLaMA-2) + 아무런 프롬프트 없음
- AI-2: 원본 모델 + Reddit 스타일 프롬프트
- AI-3: Reddit 데이터로 파인튜닝된 모델 + 프롬프트 없음
- AI-4: Reddit 학습 + 프롬프트까지 포함된 최적화 조건
이 실험 설계는 어떤 조건 조합이 AI를 ‘사람처럼’ 혹은 ‘논쟁적으로’ 보이게 하는지를 정밀하게 측정할 수 있게 한다.
성능 평가: 얼마나 인간처럼 보였을까?
실험을 설계했다면 이제는 그 결과가 얼마나 설득력 있었는지, 얼마나 인간 같았는지, 그리고 얼마나 이념적으로 일관되었는지를 평가할 차례다.
연구팀은 이 평가를 정량적(quantitative) 기준과 정성적(qualitative) 기준으로 나누어 매우 체계적으로 접근했다.
📊 정량적 평가: 수치로 본 AI의 인간성
연구팀은 LLaMA-2 모델의 네 가지 설정(AI-1 ~ AI-4)이 생성한 댓글이 얼마나 자연스럽고 설득력 있는지를 평가하기 위해 다음 세 가지 핵심 지표를 사용했다.
① BLEU Score (문장 유사도 지표)
BLEU(Bilingual Evaluation Understudy) 점수는 원래 번역 품질을 평가하기 위한 지표지만, AI가 생성한 텍스트가 실제 인간 댓글과 얼마나 유사한지를 측정하는 데도 활용된다.
- 점수가 높을수록 → 실제 Reddit 유저 댓글과 어휘·구문 수준에서 유사
- 단순 복붙이 아니라도 문맥상 유사한 표현을 잘 생성하면 점수 상승
② Perplexity (언어 유창성 지표)
Perplexity는 모델이 다음 단어를 얼마나 잘 예측했는지를 나타내는 지표로, 값이 낮을수록 좋다.
- Perplexity ↓ = 더 자연스럽고 예측 가능한 문장을 생성했다는 뜻
- 즉, 사람이 쓸 법한 문장을 더 유창하게 구성
계산 방식은 다음과 같다:
여기서 P(wi)P(w_i)는 i번째 단어의 등장 확률이다.
③ Sentiment Alignment (이념 일치도)
이 지표는 AI가 입력된 댓글의 정치적 성향에 얼마나 잘 부합하는 응답을 생성했는지를 측정한다.
- 예: 보수적 댓글에 대해 보수적 어조로 응답 → alignment ↑
- 진보적 댓글에 대해 동조 또는 반박하는 진보적 논조로 대응 → alignment ↑
이는 텍스트 임베딩 기반 감성 분석 도구를 활용해 AI 응답의 이념 편향과 감정 톤을 정량화해 비교한 결과다.
🧾 결과 요약: 숫자가 말해주는 ‘AI의 사람 흉내 성능’
GPT-3 | 24.5 | 42.1 | 61.2 |
LLaMA-2 (기본) | 26.8 | 38.7 | 65.4 |
Fine-Tuned LLaMA-2 | 32.4 | 30.2 | 78.9 |
전통적 소셜 봇 | 20.1 | 55.3 | 50.6 |
🔍 정리하면:
- Reddit 정치 커뮤니티로 fine-tuning된 LLaMA-2는 기존 GPT-3나 소셜 봇보다 훨씬 사람 같은 댓글을 생성했다.
- 유창성, 단어 선택, 감정적 정렬까지 모든 면에서 앞섰다.
특히 주목할 점은 Sentiment Alignment가 78.9%에 도달했다는 것. 이는 단순히 자연스러운 문장을 넘어서, 이념적으로 ‘딱 맞는 말’을 하는 AI가 만들어졌다는 뜻이다.
🧑⚖️ 정성적 평가: 사람 눈으로 보기엔 정말 그럴듯했을까?
수치상 성능이 좋다고 해도, 사람이 읽었을 때 진짜 사람처럼 느껴지는지는 또 다른 문제다.
이를 위해 연구팀은 **블라인드 인간 평가 실험(human evaluation study)**을 진행했다.
👥 실험 구성
- 참가자: 총 16명
- 실험 자료: 총 10개의 Reddit 댓글 (test prompts)
- 각 댓글마다 AI 모델 4개 + 실제 인간 댓글 → 총 5개 응답 제시
- 참가자는 각 응답을 무작위로 제시받고, 두 가지 항목을 1~5점으로 평가함:
Credibility | 얼마나 사람처럼 보이는가? | 1 = 인공적, 5 = 매우 인간적 |
Provocativeness | 얼마나 도발적이고 흥미로운가? | 1 = 중립적, 5 = 매우 도발적 |
📊 인간 평가 결과 요약
Human (실제 유저 댓글) | 3.71 | 3.78 |
AI-1 (원본, 무프롬프트) | 2.95 | 2.76 |
AI-2 (원본 + 프롬프트) | 3.22 | 4.03 |
AI-3 (학습 + 무프롬프트) | 3.47 | 3.58 |
AI-4 (학습 + 프롬프트) | 3.87 | 3.79 |
💡 흥미로운 사실 두 가지
- AI-4 모델은 인간보다 더 사람같다는 평가(Credibility 3.87 vs Human 3.71)를 받았다.
- AI-2는 가장 도발적인 댓글을 생성했다. 프롬프트만으로도 상당한 설득력을 가질 수 있다는 뜻이다.
🔍 무엇을 의미할까?
- Prompting만으로도 도발성을 높일 수 있다.
→ 맥락 설명을 넣는 것만으로도 논쟁적인 댓글이 가능 - Fine-tuning을 거치면, 사람보다 더 ‘사람 같은’ 정치 댓글이 만들어질 수 있다.
→ 인간이 구별하기 어려운 수준의 모방이 이미 가능해짐
✅ 요약 정리
정량 지표 | Fine-tuned LLaMA-2는 BLEU, Perplexity, Alignment 모든 면에서 최고 성능 |
정성 평가 | 사람 평가에서도 Fine-tuned + Prompt 모델(AI-4)은 진짜 유저보다 더 진짜 같음 |
프롬프트의 힘 | Prompting만으로도 도발성과 설득력이 상승함 (AI-2 주목) |
이러한 결과는 AI가 정치 담론에서 얼마나 교묘하게 사람처럼 행동할 수 있는지, 그리고 그 영향력을 얼마나 자연스럽게 행사할 수 있는지를 보여준다.