Article Review

[LLM] Turtel et al (2025) LLM이 예측력을 향상시키는 방법?

Dr. Julia 2025. 2. 14. 08:18

 

LLM이 스스로 미래 예측을 더 잘할 수 있을까?

최근 인공지능(AI)의 발전이 눈부신 가운데, 대형 언어 모델(Large Language Models, LLMs)이 스스로 미래를 예측하는 능력을 향상시킬 수 있을까? 하는 흥미로운 질문을 던지는 연구가 발표되었습니다. 이 논문은 LLM이 인간의 개입 없이 자체 학습을 통해 미래 예측 능력을 개선하는 방법을 제시하고, 그 효과를 입증하고 있습니다.

오늘은 이 논문의 핵심 내용을 쉽게 풀어보며, 어떤 방식으로 LLM이 미래 예측 능력을 키울 수 있는지 알아보겠습니다.


🤔 왜 LLM의 예측력이 중요한가?

기존의 LLM들은 텍스트 생성, 번역, 코딩, 심지어 법률 문서 작성까지 뛰어난 성능을 보이고 있지만, "미래 예측" 능력에서는 아직 인간보다 뛰어나다고 보기 어렵습니다. 특히 정확한 확률을 기반으로 미래 사건을 예측하는 ‘판단적 예측(Judgmental Forecasting)’ 에서는 인간 전문가들이 여전히 우위를 점하고 있습니다.

그러나 미래 예측 능력이 중요한 이유는 명확합니다.
✔️ 금융 시장에서 투자 전략을 세울 때
✔️ 정책 결정에서 사회적 변화 예측
✔️ 기후 변화 대응 및 위험 관리

등 다양한 분야에서 AI가 예측력을 갖춘다면 엄청난 가치를 제공할 수 있습니다.


🧠 LLM이 어떻게 스스로 예측력을 향상시킬까?

이 연구에서 제안하는 핵심 기법은 "모델 셀프 플레이(Model Self-Play)" 방식입니다.

기존의 예측 모델은 종종 인간이 제공하는 데이터(예: 전문가의 예측, 크라우드소싱 데이터) 를 학습해야 했습니다. 하지만 이 방식은 데이터 수집에 많은 시간과 비용이 들고, 최신 정보를 반영하기 어렵다는 한계가 있습니다.

연구진은 LLM이 스스로 논리를 생성하고 예측을 수행한 후, 실제 결과와 비교하며 학습하는 방식을 도입했습니다.

📌 핵심 과정 요약

1️⃣ 예측 질문을 생성

  • 연구진은 Polymarket이라는 예측 시장에서 12,100개의 예측 질문을 수집했습니다.
  • 예: "사무엘 알트만이 미국 대통령 취임식에 참석할까?" "인도 총선에서 모디 총리가 승리할까?"

2️⃣ 모델이 두 개의 예측 논리를 생성 (Self-Play)

  • 같은 질문에 대해 LLM이 두 개의 서로 다른 논리를 만들어 예측을 수행하도록 유도합니다.
  • 예를 들어, "모디 총리가 재선될 것이다"라는 예측을 하나 만들고, 반대로 "재선되지 않을 것이다"라는 예측도 생성하여 비교함.

3️⃣ 실제 결과와 비교해 랭킹(Ranking) 학습

  • 시간이 지나 실제 사건이 발생하면, 모델이 내놓은 예측 결과와 비교하여 정확성을 평가합니다.
  • 모델이 낸 확률이 실제 결과에 가까울수록 높은 점수를 부여해 학습을 진행합니다.
  • 예를 들어, 모디가 실제로 재선되었다면, "재선될 것이다"라는 예측이 높은 점수를 받음.

4️⃣ DPO(Direct Preference Optimization) 방식으로 미세 조정(Fine-Tuning)

  • 모델이 직접 만든 예측 논리를 비교하고, 더 정확한 예측 논리를 선호하도록 학습시킵니다.
  • 이 과정에서 모델은 단순히 맞고 틀리고를 배우는 것이 아니라, 더 정교한 확률 계산과 논리적 사고를 배울 수 있음.

이러한 과정을 통해, 연구진은 Phi-4 14B 및 DeepSeek-R1 14B 같은 중간 크기의 모델이 GPT-4o 같은 최신 모델과 비슷한 수준의 예측 성능을 발휘 할 수 있음을 확인했습니다.


📊 실험 결과: 예측 성능이 얼마나 향상되었을까?

연구진은 모델을 학습시킨 후, 훈련에 사용되지 않은 새로운 예측 질문 2,300개를 테스트해 보았습니다.

성과 측정 기준: "브라이어 점수(Brier Score)"

  • 브라이어 점수는 예측의 정확도를 평가하는 지표로, 값이 낮을수록 더 좋은 예측을 의미합니다.

📌 실험 결과 요약

모델평균 브라이어 점수(낮을수록 좋음)

GPT-4o 0.196
DeepSeek-R1 14B (Fine-Tuned) 0.197
Phi-4 14B (Fine-Tuned) 0.200
DeepSeek-R1 14B (Base) 0.212
Phi-4 14B (Base) 0.221

👉 모델 자체 학습(Self-Play)과 DPO를 적용한 모델들은 기존 모델보다 약 7~10% 더 정확한 예측을 수행했으며, 심지어 GPT-4o와도 비슷한 성능을 보임!

이것은 작은 모델도 효과적으로 학습하면 대형 모델과 유사한 성능을 낼 수 있음을 시사합니다.


🚀 이 연구가 갖는 의미

1️⃣ 인간이 직접 데이터 제공 없이, AI가 스스로 미래 예측력을 키울 수 있다!

  • 기존 모델은 전문가가 직접 데이터를 제공해야 했지만, 이제는 AI가 자체적으로 데이터를 생성하고 학습 가능.

2️⃣ 비교적 작은 모델도 최첨단 AI와 비슷한 성능을 보일 수 있음

  • 대형 모델(GPT-4o)과 유사한 예측력을 보인다는 것은 더 적은 연산 비용으로도 강력한 예측력을 가진 AI를 개발할 수 있다는 의미.

3️⃣ 금융, 정책, 기후 예측 등 다양한 분야에 적용 가능

  • 예측 성능이 향상되면, 투자 전략, 정책 분석, 리스크 관리 등 실제 활용도가 커질 수 있음.

🎯 마무리

이 연구는 단순한 AI 발전이 아니라, AI가 스스로 사고하고 학습하는 방식에 대한 새로운 가능성을 열었습니다. 기존에는 "인간이 가르쳐야만 학습할 수 있다"는 것이 상식이었지만, 이제 AI가 스스로 문제를 해결하며 더 똑똑해질 수 있다는 점을 증명한 것입니다.

앞으로 이러한 기술이 더 발전하면, AI가 단순히 질문에 답하는 수준이 아니라 미래를 예측하고 의사 결정을 돕는 중요한 역할을 할 수도 있을 것입니다. 😮💡

여러분은 AI가 미래를 예측하는 것이 얼마나 신뢰할 수 있다고 생각하시나요? 🤔