🧠 복잡한 텍스트 분류를 더 쉽게: Insight-Inference Loop란 무엇인가?
소셜 미디어, 뉴스, 연설문, 각종 문서까지. 우리는 수많은 텍스트 데이터 속에서 사회현상을 읽어내야 합니다. 사회과학자들은 이런 데이터를 '텍스트 자료'로 분석하지만, 아직도 세 가지 큰 문제에 부딪힙니다.
- 수작업 코딩(labeling)의 부담
- 복잡한 머신러닝 기술에 대한 장벽
- 기계가 인간의 사회이론적 통찰을 얼마나 따라갈 수 있는가에 대한 회의감
이 논문은 이 세 가지 문제를 한꺼번에 해결할 수 있는 새로운 텍스트 분류 방법론을 제안합니다. 핵심은 바로 **대형 언어모델(LLM)을 활용한 자연어 추론(NLI, Natural Language Inference)**과 최소한의 수작업으로 임계값(threshold)을 조정하는 알고리즘을 결합한 것입니다. 이 과정을 논문에서는 ‘Insight-Inference Loop’이라 부릅니다.
📚 기존 연구는 어떤 한계가 있었나?
텍스트 분석에서 가장 많이 쓰였던 방법은 아래와 같습니다.
- LIWC (Linguistic Inquiry and Word Count) 같은 사전 기반 방법 (Golder & Macy, 2011)
- 지도학습(Supervised Learning) 기반의 텍스트 분류 (Yu et al., 2008; Molina & Garip, 2019)
- 최근에는 사전학습(pre-trained) + 파인튜닝(fine-tuning) 방식의 BERT, GPT 등 대형 언어모델이 사용됨 (Devlin et al., 2019; Do, Ollion, & Shen, 2022)
하지만 이들 대부분은 다음과 같은 문제를 안고 있었습니다:
- 라벨링 비용이 높고 데이터 준비가 어려움
- 모델 파인튜닝 과정이 기술적으로 복잡하고 비용이 큼
- 기계가 인간의 사회적 맥락이나 의미를 제대로 포착하지 못하는 ‘블랙박스’ 문제
🧠 이론: 기계와 인간의 상호작용, 그리고 ‘사고의 고리’
이 논문은 텍스트 분석을 사회이론과 기계학습 사이의 ‘대화’로 재정의합니다.
- 연구자는 데이터에 대해 이론적 통찰을 갖고 있고,
- 모델은 대규모 텍스트에서 ‘논리적 일관성(entailment)’을 기반으로 문장 간 관계를 평가할 수 있음.
- 이 둘을 잇는 ‘Insight-Inference Loop’은, 기계가 텍스트를 해석하고, 연구자는 그 결과를 보고 다시 판단하며 조정하는 **반복적 상호작용(iterative interaction)**입니다.
기존의 자동화된 분석이 인간의 판단을 대체하려 했다면, 이 방법은 인간의 이론과 판단을 중심에 둡니다.
🔍 방법론: 단계별로 자세히 설명해볼게요
🧩 전체 개요: 왜 새로운 방법이 필요한가?
기존의 분류 방식은 대개 아래와 같은 한계를 가집니다:
- 사전 정의된 카테고리에 텍스트를 분류하려면 많은 수작업 레이블링 데이터가 필요
- 대형 언어모델(LLM)을 사용하더라도, 특정 주장(claim)에 대한 정확한 판단은 어려움
- 특히 "이 텍스트가 A라는 주장을 *내포(entail)*하고 있는가?"를 판단하는 데에는 기계적 키워드 매칭만으로는 부족
이런 문제를 해결하기 위해, 저자들은 "사람의 직관(insight)"과 "모델의 추론 능력(inference)"을 연결하는 루프형 구조, 즉 Insight-Inference Loop를 제안했습니다.
✅ 단계별 설명
① 주장을 명시적으로 정의하기 (Define the Claim)
분류하고자 하는 정치적 또는 사회적 주장을 명확한 문장으로 정의합니다. 이 문장은 이후 모든 트윗(또는 문서)에 적용되는 일관된 기준점이 됩니다.
예시:
- “Joe Biden is bought by China”
- “The CCP is interfering in the U.S. election”
이러한 주장은 뉴스, 선거 캠페인, 여론조사 등에서 자주 등장하는 논쟁적 메시지들로 구성되며, 이들이 트윗 등에서 어떻게 작동하는지 분석하는 것이 목표입니다.
👉 이 단계의 핵심은: 정치적 주장 자체를 분류기(label)로 삼는 것입니다. 기존처럼 범주(label)만 정의하는 것이 아니라, 주장이라는 자연어 문장을 사용합니다.
② 자연어 추론(NLI) 모델을 활용하여 ‘주장-텍스트’ 쌍을 분류하기
이제 각 트윗을, 위에서 정의한 주장과 짝지어서 자연어 추론 모델에 넣습니다.
- 사용된 모델: facebook/bart-large-mnli
- 입력 구조:
- Premise (전제): 트윗의 원문
- Hypothesis (가설): 우리가 정의한 주장
모델은 아래 3가지 클래스 중 하나로 분류합니다:
Entailment | 트윗이 해당 주장을 내포함 |
Neutral | 중립적이거나 관련 없음 |
Contradiction | 주장을 명확히 반박하거나 모순됨 |
출력 결과는 각 클래스에 대한 확률 값으로 나옵니다.
예시:
👉 핵심: 이 모델은 문장의 의미 구조를 기반으로 판단하기 때문에, 단순 키워드보다 훨씬 더 깊이 있는 의미 분석이 가능합니다.
③ 샘플링을 통한 수작업 판별 (Insight Extraction)
모든 데이터를 다 수작업으로 라벨링할 필요는 없습니다. 대신:
- 주장 1개당 40개 정도의 트윗을 무작위 샘플링하여
- 사람이 직접 읽고, 그 트윗이 해당 주장을 내포하는지 여부를 정성적으로 판단합니다.
이 단계에서 얻은 **소량의 인간 통찰(insight)**은 다음 단계에서 모델의 판단 기준을 조정하는 데 사용됩니다.
예시:
- 40개 트윗 중, 사람이 entail로 판단한 것이 27개
- 해당하는 entail 확률 점수 분포는 0.68~0.95 사이
- 이걸 바탕으로 entailment 임계값(threshold)을 0.72로 설정
④ 임계값 튜닝 (Threshold Tuning)
자연어 추론 모델은 각 트윗에 대해 entailment 점수를 확률로 제공합니다. 이 점수가 몇 이상일 때 ‘주장을 내포한다(entail)’고 판단할지 **임계값(threshold)**을 설정해야 합니다.
이 임계값은 앞서 수작업으로 판단한 결과와 모델의 점수를 **정렬(matching)**하여 결정합니다.
- 사람이 entail로 판단한 트윗들이 대부분 0.75 이상이라면,
- threshold를 0.75로 설정하면 정확도가 높아짐
이 과정을 통해, 각 주장마다 맞춤형 임계값을 설정하게 됩니다. 모든 주장에 같은 기준을 쓰지 않기 때문에 정확도가 매우 향상됩니다.
⑤ 전체 데이터에 적용하여 대규모 분류 수행
이제 위에서 설정한 threshold를 기준으로:
- 전체 트윗 데이터를 자동 분류합니다
- 각 트윗에 대해 “이 주장을 내포하는가?”를 자동으로 판단
이 과정을 수천만 개 단위의 텍스트에 적용할 수 있습니다. 이처럼 사람의 판단은 40개만 있었지만, 전체 분류는 모델이 자동으로 수행합니다. 바로 이 지점에서 “사람의 인사이트”와 “모델의 인퍼런스”가 루프를 이루는 구조가 성립합니다.
📌 요약 정리
① 주장 정의 | 분석할 정치적 주장 문장을 설정 | 분류 기준 생성 |
② NLI 추론 | 트윗-주장 쌍을 NLI 모델에 입력 | 의미 기반 분류 |
③ 수작업 평가 | 소량의 트윗을 수작업으로 판별 | 기준 튜닝에 필요한 인사이트 확보 |
④ 임계값 설정 | 수작업 결과를 기반으로 최적 threshold 결정 | 정확도 향상 |
⑤ 전체 분류 | 전체 텍스트를 자동 분류 | 대규모 데이터 적용 |
🧪 실제 적용: 2020년 미국 대선과 ‘중국’ 관련 담론
이 논문에서 제안한 ‘Insight-Inference Loop’ 방법은 실제 사례로 2020년 미국 대선 당시 트위터 상에서의 '중국 관련 담론' 분석에 적용되었습니다. 이 사례는 단순한 방법론 소개를 넘어, 실제 사회적 이슈에 대형 언어모델을 어떻게 적용할 수 있는지를 보여주는 매우 흥미로운 예시입니다.
1️⃣ 데이터 수집: 2억 4천만 개의 트윗 중 ‘중국’ 담론만 뽑아내기
연구진은 2019년부터 2022년까지 수집한 총 2억 4천만 개의 트윗을 바탕으로 분석을 시작했습니다. 이 중에서 ‘중국(China)’과 관련된 담론만 걸러내기 위해 아래와 같은 키워드를 기준으로 필터링했습니다.
- “China”
- “Wuhan”
- “CCP” (Chinese Communist Party)
- “Kung Flu” (차별적 표현)
- “Chinese Virus”
이렇게 필터링한 결과, 약 130만 개의 트윗이 중국 관련 정치적 담론을 포함하고 있었습니다.
2️⃣ 분석 대상 주장(claim) 선정: '바이든이 중국에 매수되었다' 외 8개
그 다음 단계는 분석할 **정치적 주장(claim)**을 직접 설정하는 것이었습니다. 연구자들은 다음과 같은 8가지 주장을 만들고, 각각에 대해 해당 트윗이 그 주장을 ‘함의(entailment)’하는지를 분석했습니다. 예시로는 다음과 같은 문장이 포함됩니다.
1 | “Joe Biden is bought by China” (조 바이든은 중국에 매수되었다) |
2 | “China is responsible for the pandemic” (중국은 팬데믹의 책임이 있다) |
3 | “China is the U.S.'s enemy” (중국은 미국의 적이다) |
4 | “The CCP is trying to influence U.S. politics” (중국 공산당이 미국 정치를 조작하려 한다) |
5 | “Biden supports China” (바이든은 중국을 지지한다) |
6 | “China is manipulating the 2020 election” (중국이 2020년 선거에 개입하고 있다) |
7 | “Trump is strong against China” (트럼프는 대중국에 강경하다) |
8 | “Trump is controlled by China” (트럼프는 중국에 조종당한다) |
이 주장은 구체적이고 정치적으로 민감한 내용이지만, 트윗 분석에서는 중요한 기준점이 됩니다. 연구자들은 이 주장을 바탕으로 각 트윗이 해당 주장을 **내포(entail), 반박(contradict), 중립(neutral)**하는지를 측정합니다.
3️⃣ 자연어 추론 모델 적용: 각 트윗이 주장을 함의하는가?
이제 이 주장을 기준으로, 각 트윗이 해당 주장을 내포하는지를 자연어 추론(NLI) 모델로 판별합니다.
- 사용된 모델: facebook/bart-large-mnli
- 입력 방식:
- Premise: 트윗 내용
- Hypothesis: 위에서 설정한 주장 (예: "Joe Biden is bought by China")
모델은 각 조합에 대해 **entailment (함의), neutral (중립), contradiction (반박)**의 확률을 출력하며, 이 중 entailment 점수를 기준으로 분류합니다.
4️⃣ 임계값 튜닝과 대규모 분류 수행
각 주장을 기준으로 40개 샘플만 수작업으로 판단하고, 그 결과를 바탕으로 **가장 적절한 임계값(threshold)**을 추정합니다. 이 threshold는 모델의 확률이 어느 수준 이상일 때 ‘해당 주장을 내포한다’고 판단할지를 결정합니다.
예를 들어,
- 0.5가 아니라, 0.72 이상의 점수여야 ‘바이든은 중국에 매수되었다’는 주장을 내포한다고 간주할 수 있습니다.
이 임계값 설정 덕분에 모델의 과도한 낙관/비관 판단을 보정할 수 있게 됩니다.
5️⃣ 시계열 분석: '중국-바이든' 담론은 언제 급증했나?
모든 트윗을 분류한 후에는, 시간대별로 특정 주장이 어떻게 변화했는지를 시각화합니다.
📌 주요 결과 요약:
- "Joe Biden is bought by China" 주장은 선거 직전인 2020년 10월 22일에 급증함
→ 이 날은 트럼프와 바이든의 마지막 TV 토론이 있었던 날로, 트럼프가 ‘헌터 바이든과 중국 관련 의혹’을 집중적으로 제기했던 바로 그 시점입니다. - 반면, "Trump is controlled by China" 같은 트럼프 비판적 주장은 전반적으로 매우 드물었습니다.
→ 이는 트위터 상 여론에서 ‘중국’ 이슈는 바이든 공격용 프레임으로 주로 사용되었음을 보여줍니다. - 다른 주장들(예: “China is responsible for the pandemic”)도 특정 시기에 급증하는 패턴을 보임.
이러한 시계열 분석은 단순히 어떤 주장이 많은지를 넘어서, 정치적 이벤트와 SNS 담론 간의 관계를 정량적으로 추적할 수 있게 해줍니다.
🔎 시사점: 정치적 프레임의 확산을 자동으로 측정하다
이 사례를 통해 우리는 다음과 같은 사실을 확인할 수 있습니다.
- 자연어 추론 모델 + 임계값 튜닝 조합만으로도 매우 고성능의 정치 담론 분석이 가능하다.
- 인간 연구자의 이론적 직관을 소규모 샘플로 반영함으로써, 기계의 자동 판단을 보완할 수 있다.
- 트위터 같은 플랫폼에서, 특정 프레임(예: 중국-바이든 연결)이 어떻게 시기별로 확산되는지를 추적할 수 있다.
- 기존 방법들보다 적은 수작업과 계산자원으로도 의미 있는 시계열 분류가 가능하다.
📊 성능은 어땠을까?
이 방법은 다음과 같은 방식으로 기존 기법과 비교되었습니다.
제안된 방법 (임계값 튜닝 포함) | 0.66~0.74 |
파인튜닝된 BERT 모델 | 0.57 |
파인튜닝된 BART-MNLI | 0.69 |
Llama2/3 기반 프롬프트 방식 | 0.58~0.60 |
Zero-shot (임계값 0.5 고정) | 0.57 |
→ 제안된 방식이 성능은 가장 높으면서도, 학습 데이터 요구량과 컴퓨팅 비용은 가장 낮았습니다.
🧵 정리하며: 왜 이 방법이 중요한가?
Chausson et al. (2025)은 기술적 효율성뿐 아니라 사회과학의 이론적 감수성을 지키는 방법론을 제시했습니다.
- “AI가 전부 대신하는 것”이 아닌,
- “AI와 연구자의 협업”을 통한 텍스트 분석.
이 방법은 특히 다음과 같은 경우에 강력합니다:
- 데이터 라벨링 자원이 부족한 경우
- 연구자의 이론적 해석을 모델에 반영하고 싶은 경우
- 정치적 발화, 담론 분석 등에서 “의미 있는 문장 단위”를 추적하고 싶은 경우
앞으로는 이 방식을 통해 정량적 분석과 질적 통찰이 결합된 텍스트 연구가 더 풍부하게 가능할 것입니다.