[논문리뷰] Braghieri et al (2025) 소셜 미디어에서의 뉴스 소비의 기사 수준 편향과 양극화
정치커뮤니케이션 분야로 새로운 방법론을 제시하고, LLM파인튜닝을 썼던게 흥미로웠던 논문 리뷰 공유합니다 :)
소셜 미디어와 뉴스 소비의 양극화: 슬랜트 측정과 분석
소셜 미디어의 등장으로 사람들이 뉴스를 소비하는 방식이 급격히 변화했습니다. 특히, 소셜 미디어가 사용자들에게 자신과 이념적으로 유사한 기사(친이념적 뉴스)를 제공하여 뉴스 소비의 양극화를 촉진한다는 우려가 제기되고 있습니다. 이번 연구는 기존 연구의 한계를 넘어 기사 단위에서 슬랜트를 측정하여 소셜 미디어 뉴스 소비의 양극화 정도를 새롭게 평가합니다.
연구의 주요 퍼즐
기존 연구에서는 주로 뉴스 매체 단위에서 슬랜트를 측정했으나, 소셜 미디어에서는 뉴스가 개별 기사 단위로 큐레이션됩니다. 따라서 매체 수준에서 슬랜트를 측정하면 양극화의 정도를 과소평가할 가능성이 큽니다. 이 연구는 기사 단위에서 슬랜트를 평가하고, 이를 통해 소셜 미디어 환경에서 뉴스 소비의 양극화를 정밀하게 분석하고자 합니다.
그렇다면 어떻게 이를 분석했을까?
1. 데이터 수집: 방대한 뉴스와 소셜 미디어 상호작용 데이터
(1) 뉴스 기사 데이터
이 연구는 미국의 상위 100개 뉴스 매체가 2019년에 발행한 약 100만 개의 하드 뉴스 기사를 분석 대상으로 삼았습니다.
- 하드 뉴스 정의: 정치, 경제, 사회 이슈 등 주요 뉴스를 포함하며, 스포츠, 연예, 날씨와 같은 소프트 뉴스는 제외했습니다.
- 뉴스 수집 방법: 각 뉴스 매체의 웹사이트에서 데이터를 스크랩(scrape)하고, 기사의 본문(text), 제목, 메타데이터를 포함한 정제(cleaning) 과정을 거쳤습니다.
- 정제 과정:
- 광고, 링크 등 불필요한 텍스트 제거.
- 최소 250자 이상의 기사만 포함(짧은 내용의 비뉴스 기사 제외).
(2) 페이스북 사용자 상호작용 데이터
소셜 미디어 뉴스 소비 양상을 분석하기 위해, 페이스북의 'Facebook Privacy-Protected Full URLs Dataset' 데이터를 활용했습니다.
- 이 데이터는 100회 이상 공유된 기사의 URL과 관련된 상호작용 정보를 포함하며, 다음과 같은 정보를 제공합니다:
- 조회수(Views): 사용자가 기사를 클릭한 횟수.
- 공유수(Shares): 기사가 페이스북에서 공유된 횟수.
- 정치적 성향: 사용자의 정치적 성향(진보, 중도, 보수) 정보.
- 정치적 성향은 사용자가 페이스북에서 팔로우한 정치적 페이지를 바탕으로 산출되었습니다.
(3) 뉴스 기사 데이터와 페이스북 데이터 연결
- 결합 방식:
- 두 데이터셋을 공통된 URL을 기준으로 매칭(matching)했습니다.
- 예를 들어, 뉴스 기사 데이터에 포함된 기사 URL이 페이스북 상호작용 데이터에 나타난다면, 해당 기사의 페이스북 상호작용 데이터를 뉴스 기사 데이터와 연결.
(4) 뉴스 기사 데이터가 페이스북 데이터에 포함되는지 확인
- 페이스북 사용자 상호작용 데이터(Facebook Privacy-Protected Full URLs Dataset)는 100회 이상 공유된 기사만 포함합니다. 따라서:
- 연구팀이 수집한 뉴스 기사 데이터의 URL이 페이스북 데이터와 겹치는지 확인.
- 이 과정을 통해 연구팀은 수집한 뉴스 기사 데이터 중 약 22%의 URL이 페이스북 데이터에 포함되어 있음을 확인했습니다.
- 즉, 전체 100만 개 뉴스 기사 중 약 22만 개의 기사가 페이스북에서 공유된 기록이 존재함.
(5). 매칭되지 않은 기사
- 약 78%의 뉴스 기사 URL은 페이스북 상호작용 데이터에 포함되지 않음.
- 이 경우 해당 기사는 페이스북에서 공유되지 않았거나, 공유 횟수가 100회 미만일 가능성이 높습니다.
2. 슬랜트 측정: LLM(대규모 언어 모델)을 활용한 정교한 분석
(1) 훈련 데이터 구축: 전문가 평가를 통한 슬랜트 라벨링
뉴스 기사의 정치적 성향(슬랜트)을 정량적으로 측정하기 위해, 훈련 데이터를 구축했습니다.
- 전문가 라벨링:
- 정치학과 범죄학 석사 학위를 보유한 전문가 2명과 연구 보조원이 총 4,632개의 기사를 평가.
- 슬랜트 점수는 -3(매우 좌파)서 3(매우 우파)까지의 7점 척도로 부여.
- 평가 기준:
- 언어: 특정 정파의 용어(예: "진보적 정책" vs. "보수적 가치") 사용 여부.
- 정치적 입장: 기사가 특정 정당의 입장에 가까운지 여부.
- 이슈 강조: 특정 이슈(복지, 이민, 환경 등)가 특정 정당의 지지 기반에 더 강조되었는지 여부.
- 라벨 품질 개선:
- 두 전문가의 평가 결과가 불일치할 경우(약 6% 사례), 연구 보조원이 추가 평가를 수행.
- 최종 슬랜트 점수는 전문가 평균값으로 설정.
- 결과적으로, 두 전문가의 슬랜트 평가 간 상관계수는 0.72로 비교적 높은 신뢰도를 확보.
(2) LLM(대규모 언어 모델) 미세 조정
뉴스 텍스트 분석을 위해 OpenAI의 GPT-4o 모델을 사용했습니다.
- 미세 조정 과정:
- 전문가가 라벨링한 4,632개 기사 중 3,000개를 훈련 데이터로 사용.
- 나머지 1,500개는 모델의 성능 검증(validation)용으로 활용.
- 모델이 기사 텍스트에서 슬랜트를 자동으로 예측할 수 있도록 미세 조정(fine-tuning)을 수행.
- 모델 성능 향상:
- 미세 조정 전 모델의 예측 정확도(Pearson 상관계수): 0.72.
- 미세 조정 후: 0.86으로 약 20% 성능 향상.
(3) 모델 검증 및 타당성 평가
LLM의 슬랜트 예측 결과를 신뢰할 수 있도록 다양한 검증을 수행했습니다.
- 훈련 데이터와의 비교: 모델 예측값과 전문가 라벨 간 상관계수는 0.86으로 높은 일치도를 보여줌.
- 외부 데이터와의 비교: 독립적 슬랜트 평가 기관인 Ad Fontes Media(AFM)의 슬랜트 점수와 상관계수는 0.82.
- 뉴스 매체 단위 슬랜트와의 비교: 매체 수준에서 슬랜트를 평균화한 기존 문헌의 결과와 상관계수는 0.89.
3. 분석 방법: 기사 단위의 양극화 측정
양극화 측정: 페이스북 뉴스 소비의 이념적 차이를 어떻게 평가했을까?
연구의 핵심 목표 중 하나는 페이스북에서 보수적 사용자와 진보적 사용자가 소비하는 뉴스 간 이념적 거리(양극화 정도)를 정량적으로 측정하는 것입니다. 이를 위해 연구팀은 독창적인 방법론을 통해 양극화를 정의하고 계산했습니다. 이 과정을 좀 더 자세히 설명하겠습니다.
1. 양극화 정의
양극화는 보수적 사용자와 진보적 사용자가 소비한 뉴스의 평균 슬랜트 차이로 정의됩니다.
이때, 슬랜트는 기사 단위로 측정되며, 각 기사의 슬랜트 점수는 -3(매우 좌파)에서 3(매우 우파)까지의 척도로 평가됩니다.
- 양극화 측정 지표:
- : 진보적 사용자가 소비한 뉴스의 평균 슬랜트.
- : 보수적 사용자가 소비한 뉴스의 평균 슬랜트.
- 6: 슬랜트 점수의 최대 차이(3 - (-3))로, 결과를 -1에서 1 사이의 값으로 정규화(normalization)함.
- 지표 해석:
- : 극단적으로 친이념적 뉴스 소비(보수와 진보가 전혀 다른 성향의 기사를 소비).
- : 보수와 진보가 동일한 슬랜트의 기사를 소비.
- : 극단적으로 역이념적 뉴스 소비(진보가 우파 기사, 보수가 좌파 기사 소비).
2. 양극화 측정 과정
(1) 기사 단위 슬랜트 계산
- 연구팀은 OpenAI의 GPT-4o 모델을 미세 조정하여 약 100만 개의 뉴스 기사 각각의 슬랜트를 -3에서 3까지의 점수로 측정.
- 이 기사 단위 슬랜트 점수를 사용하여 각 기사의 정치적 성향을 평가.
(2) 사용자 그룹별 소비 패턴 분석
- 페이스북 상호작용 데이터에서 진보적 사용자와 보수적 사용자로 구분된 데이터를 활용.
- 각 사용자 그룹이 소비한 뉴스 기사의 슬랜트를 가중평균(weighted average)으로 계산
(3) 양극화 지표 계산
- 와 Scon의 차이를 계산한 후, 이를 6으로 나누어 정규화.
3. 주요 결과: 페이스북 뉴스 소비의 양극화는 얼마나 심각한가?
(1) 양극화의 절대적 수준
- 보수적 사용자와 진보적 사용자가 소비한 뉴스 기사의 평균 슬랜트 차이는 약 1.44(7점 척도 기준)로 나타남.
- 이를 표준화된 지표로 환산하면 P=0.24P = 0.24로, 이는 상당히 높은 양극화를 시사.
(2) 비교를 통한 해석
연구팀은 이 양극화 정도를 여러 기준과 비교하여 그 심각성을 강조했습니다:
- 뉴욕타임스 vs 폭스뉴스:
- 페이스북 사용자 간 슬랜트 차이는 뉴욕타임스와 폭스뉴스 기사 간 평균 슬랜트 차이의 1.5배.
- 뉴욕타임스 내 칼럼니스트 간 차이:
- 보수적 칼럼니스트(데이비드 브룩스)와 진보적 칼럼니스트(폴 크루그먼) 간 슬랜트 차이에 가까움.
- 정치인 간 공유 패턴:
- 페이스북에서 진보와 보수가 소비한 뉴스 간 슬랜트 차이는 엘리자베스 워런(민주당)과 린지 그레이엄(공화당)이 공유한 뉴스 간 슬랜트 차이에 유사.
4. 양극화의 주요 메커니즘
(1) 매체 내 친이념적 소비
- 동일 매체 내에서도 진보와 보수는 자신들의 이념과 일치하는 기사를 선택.
- 예: 뉴욕타임스의 보수적 칼럼(브렛 스티븐스)을 보수적 사용자가, 진보적 칼럼(폴 크루그먼)을 진보적 사용자가 소비.
- 이러한 내부 선택은 매체 간 차이만으로는 설명되지 않는 추가적인 양극화를 유발.
(2) 극단적 콘텐츠의 확산
- 중도적 기사보다 극단적 기사가 페이스북에서 더 자주 공유.
- 중도적 기사가 공유될 확률: 11%.
- 극단적 기사가 공유될 확률: 39% → 극단적 기사가 3.5배 더 많이 확산.
(3) 에코챔버와 노출
- 사용자의 친구 네트워크와 친이념적 콘텐츠 공유는 에코챔버를 형성.
- 연구 결과, 에코챔버는 뉴스 노출 양극화의 약 52%를 설명.
그래서 결론은?
이 연구는 소셜 미디어에서의 뉴스 소비가 예상보다 훨씬 더 양극화되어 있음을 보여줍니다. 이는 디지털 시대의 정치적 양극화를 이해하고, 공정하고 균형 잡힌 공공 담론을 조성하기 위한 정책 설계에 중요한 시사점을 제공합니다.
또한, 기사 단위(content-based) 슬랜트 측정은 기존 연구에서 간과되었던 매체 내 슬랜트 변화를 반영할 수 있어, 소셜 미디어 뉴스 환경을 이해하는 데 매우 유용한 도구임을 입증했습니다.
이 연구는 디지털 시대의 뉴스 소비 양상을 분석하는 데 중요한 기여를 하며, 향후 연구 및 정책 논의의 중요한 출발점을 제공합니다.