[LLM/정치학] Timoneda and Vera (2025) LLM의 기억이 Annotation 성능을 향상시키는 방법?
기억하는 AI가 더 똑똑할까? 대형 언어 모델(LLM)의 기억이 데이터 태깅(Annotation) 성능을 향상시키는 방법
대형 언어 모델(Large Language Models, LLM)은 점점 더 다양한 연구 분야에서 활용되고 있습니다. 특히 정치학, 사회과학, 심리학 등에서 텍스트를 자동으로 태깅(분류)하는 데 유용하게 사용되며, 인간보다 더 높은 정확도를 보이는 경우도 많습니다. 하지만 지금까지 AI를 활용한 연구 대부분은 **"기억 없는 모델(No Memory)"**을 사용했습니다. 즉, AI는 매번 새로운 문장을 분류할 때 이전에 했던 응답을 기억하지 못한 채 독립적으로 판단해 왔습니다.
이 연구에서는 **AI가 과거의 분류 결과를 기억할 수 있다면 성능이 얼마나 향상될까?**라는 질문을 던졌습니다. 연구자들은 OpenAI의 GPT-4o와 Meta의 Llama 3.1을 사용해 네 가지 학습 방법을 실험했고, AI가 기억을 가지면 성능이 5~25% 향상될 수 있다는 사실을 밝혀냈습니다.
특히 연구자들은 기존 방법보다 더 발전된 "메모리 강화(Memory Reinforcement)" 기법을 새롭게 제안하여, AI가 과거의 분류 결과를 학습하고 피드백을 반영하도록 설계했습니다. 결과적으로, 이 방법은 기존의 Few-Shot 학습이나 체인 오브 싱킹(CoT, Chain of Thought) 방식보다 훨씬 우수한 성능을 보였습니다.
이제 연구의 방법론을 자세히 살펴보겠습니다.
연구 방법: AI는 기억을 어떻게 배우는가?
연구팀은 LLM의 "기억"이 데이터 태깅 성능을 어떻게 향상시키는지 테스트하기 위해 네 가지 다른 학습 방식을 비교했습니다.
🔹 실험에서 사용된 네 가지 학습 방식
1️⃣ Zero-Shot 학습 (기억 없음)
2️⃣ Few-Shot 학습 (CoT, 기억 없음)
3️⃣ 메모리 프롬팅(Memory Prompting)
4️⃣ 메모리 강화(Memory Reinforcement)
이제 각각의 방법을 상세하게 설명하겠습니다.
🟠 1. Zero-Shot 학습 (기억 없음)
Zero-Shot 방식은 가장 기본적인 AI 태깅 방식입니다. AI에게 아무런 예제도 제공하지 않고, 단순히 주어진 텍스트를 보고 분류하도록 합니다.
📌 예제: Zero-Shot 학습 방식에서 AI가 문장을 분류하는 과정
입력 문장: "전통적인 가치가 더 중요하게 여겨졌던 1960년대가 그리워진다."
AI의 분류 결과: Nostalgic (정확한지 여부는 알 수 없음)
이때, AI는 그동안의 학습 데이터에 기반해 자체적으로 판단을 내립니다. 하지만, 이전 문장들을 기억하지 못하기 때문에, 비슷한 문장이라도 다르게 분류할 가능성이 높습니다.
Zero-Shot 방식의 문제점
✔️ AI가 이전 응답을 기억하지 않음 → 각 문장은 완전히 독립적으로 분류됨.
✔️ 일관성이 부족 → 비슷한 문장도 다르게 분류할 가능성이 있음.
✔️ 일반적으로 성능이 낮음 → 훈련 데이터를 제공하지 않기 때문.
🟠 2. Few-Shot 학습 (CoT, 기억 없음)
Few-Shot 학습 방식에서는 AI가 몇 가지 예제(예: 10개)를 보고 학습한 후 새로운 텍스트를 분류하게 합니다. 특히 연구자들은 체인 오브 싱킹(CoT, Chain of Thought) 기법을 사용했는데, 이 방법은 AI가 답을 내기 전에 논리적인 사고 과정을 단계별로 설명하도록 유도하는 방식입니다.
📌 예제: Few-Shot 학습에서 AI가 문장을 분류하는 과정
입력 문장: "전통적인 가치가 더 중요하게 여겨졌던 1960년대가 그리워진다."
AI의 사고 과정:
- "1960년대"라는 과거 시점이 언급됨.
- "그리워진다"는 긍정적 감정을 의미함.
- 따라서, 이 문장은 "Nostalgic"으로 분류하는 것이 적절함.
최종 분류: Nostalgic
Few-Shot 방식의 장점과 단점
✔️ Zero-Shot보다 정확도가 높음.
✔️ AI가 논리적인 사고 과정을 거쳐 답을 도출함.
❌ 여전히 AI는 이전 분류 결과를 기억하지 못함.
❌ 각 문장은 독립적으로 처리되며, 피드백을 반영할 수 없음.
🟠 3. 메모리 프롬팅(Memory Prompting) – AI가 기억을 갖게 된다면?
지금까지의 AI 텍스트 태깅 방식은 Zero-Shot(기억 없음) 또는 Few-Shot(일부 예제 제공, 기억 없음) 방식을 활용했습니다. 이 방식들은 AI가 새로운 문장을 분류할 때 이전에 했던 응답을 전혀 기억하지 못하고 매번 독립적으로 판단한다는 문제점을 갖고 있었습니다.
그렇다면 AI가 이전에 분류한 문장들을 기억할 수 있다면 어떨까요? 연구팀은 이 아이디어를 실험하기 위해 메모리 프롬팅(Memory Prompting) 기법을 고안했습니다.
🔹 메모리 프롬팅의 핵심 개념
메모리 프롬팅은 AI가 과거에 분류한 데이터를 참고하도록 함으로써, 더 일관성 있는 판단을 내리도록 설계된 방법입니다.
기존 Few-Shot 방식과 달리, 새로운 문장을 분류할 때 AI가 과거 분류 결과를 메모리에 저장하고 이를 참고할 수 있도록 설계되었습니다.
📌 메모리 프롬팅 방식에서 AI가 학습하는 과정
1️⃣ AI가 첫 번째 문장을 분류
- AI는 처음에는 기존의 Few-Shot 방식처럼 주어진 문장을 분류함.
- 예를 들어, **"전통적인 가치가 더 중요했던 1960년대가 그립다."**라는 문장이 주어졌을 때, 이를 **"Nostalgic"**으로 분류.
2️⃣ AI가 두 번째 문장을 분류할 때, 이전 분류 결과를 함께 제공
- 이제 새로운 문장이 주어질 때, AI가 과거 분류 기록을 참고하도록 설정.
- 즉, AI는 **"이전에도 유사한 문장이 'Nostalgic'으로 분류되었어. 그럼 이번에도 비슷하게 판단해야겠지?"**라고 스스로 판단함.
- 따라서 같은 맥락의 문장을 일관되게 분류할 가능성이 높아짐.
3️⃣ 이전 결과들을 계속해서 참고하며 분류 정확도 향상
- AI는 매번 새로운 문장을 분류할 때, 이전 문장들과 비교하여 더 정확한 판단을 내릴 수 있음.
- 예를 들어, **"오늘날의 사회는 1950년대의 단순함을 잃어버렸다."**라는 문장이 새롭게 입력되면,
- AI는 이전에 'Nostalgic'으로 분류한 문장들과 비교하여 비슷한 패턴을 찾아 일관된 답을 도출함.
🔹 메모리 프롬팅의 장점
✔️ 이전 결과를 참고하면서 더 정확한 분류 가능
- 과거 데이터를 기반으로 일관성 있는 답변을 생성할 수 있음.
- 비슷한 문장을 계속 다르게 분류하는 문제를 줄일 수 있음.
✔️ 일관성 있는 태깅 가능
- 같은 의미의 문장을 더 정확하고 통일성 있게 태깅할 수 있음.
- 예를 들어, 정치적 향수(Nostalgia)에 대한 태깅 시, 비슷한 문장을 엇갈리게 분류하는 오류가 줄어듦.
✔️ Zero-Shot, Few-Shot보다 높은 성능
- AI가 독립적으로 판단하는 것이 아니라, 스스로 패턴을 학습하여 분류 능력을 지속적으로 향상시킬 수 있음.
- 이는 사람이 경험을 통해 배우는 방식과 유사함.
🔹 메모리 프롬팅의 한계점
❌ AI가 과거 분류 결과가 정답인지 모름
- AI는 이전에 자신이 한 응답을 참고할 수 있지만, 그것이 정답인지 여부는 알지 못함.
- 만약 AI가 첫 번째 문장을 잘못 분류했다면, 이후에도 계속해서 잘못된 패턴을 따를 가능성이 있음.
❌ 긴 대화 기록이 필요하므로 API 비용과 처리 속도 증가
- AI가 기억할 수 있는 최대 문장 개수(200개)가 넘어가면, 새로운 문장을 추가할 때 이전 문장 일부를 삭제해야 함.
- GPT-4o와 같은 모델은 **한 번에 처리할 수 있는 최대 토큰 수(token limit)**가 있기 때문에, 너무 많은 데이터를 참고하게 되면 성능이 저하될 가능성이 있음.
🟠 4. 메모리 강화(Memory Reinforcement) – AI가 피드백을 통해 학습할 수 있다면?
메모리 프롬팅 방식은 AI가 이전 응답을 기억하도록 하여 일관성을 높였지만, 한 가지 중요한 문제가 있었습니다.
👉 AI는 자신이 한 응답이 맞았는지 틀렸는지 알 수 없다는 점!
이를 해결하기 위해 연구팀은 한 단계 더 나아가 메모리 강화(Memory Reinforcement) 기법을 고안했습니다. 이 방식은 AI가 이전 응답을 기억하는 것뿐만 아니라, 피드백을 받고 스스로 학습하도록 유도하는 방식입니다.
🔹 메모리 강화의 핵심 개념
AI가 자신의 실수를 인지하고 수정하도록 학습하는 방법입니다.
즉, AI가 문장을 분류한 후 연구자가 피드백을 주는 방식입니다.
기존 머신러닝 기법인 **"강화 학습(Reinforcement Learning, RL)"**과 유사한 개념으로, AI가 맞는 분류를 했을 때 보상을 받고, 틀린 분류를 했을 때 수정하는 과정을 통해 성능을 향상시킵니다.
🔹 메모리 강화 방식에서 AI가 학습하는 과정
1️⃣ AI가 먼저 20%의 데이터(예: 600개 중 120개)를 학습용으로 사용
- 처음부터 모든 데이터를 학습하는 것이 아니라, 일부 데이터를 먼저 태깅하도록 함.
2️⃣ AI가 문장을 분류하고 연구자가 피드백을 제공
- 정답이면: "잘했어! 다음에도 이렇게 해봐."
- 오답이면: "틀렸어. 정답은 X야. 다음부터는 이렇게 생각해 봐."
3️⃣ 피드백을 받은 AI가 학습한 후, 나머지 80% 데이터를 분류
- 이제 AI는 과거 피드백을 기억하면서 남은 데이터를 태깅함.
- 이를 통해 AI는 점진적으로 학습하고, 성능이 계속 향상됨.
🔹 메모리 강화의 장점
✔️ AI가 피드백을 반영하며 스스로 학습할 수 있음
- 기존 AI 모델들은 한 번 틀리면 계속 틀릴 가능성이 컸지만, 이 방식은 AI가 **"아, 이건 틀렸었구나!"**라고 스스로 인식하고 수정할 수 있도록 함.
✔️ Few-Shot보다 성능이 10~25% 향상됨!
- AI가 점점 더 정확한 분류를 수행할 수 있도록 학습되며, Zero-Shot이나 Few-Shot보다 월등히 높은 성능을 보임.
✔️ 인간처럼 "실수를 통해 학습하는 과정"을 모방할 수 있음
- 사람도 실수를 하면서 배우는 것처럼, AI도 잘못된 응답을 수정하면서 스스로 개선할 수 있음.
🔹 메모리 강화의 한계점
❌ 연구자가 직접 피드백을 제공해야 하므로 초기 학습 비용이 증가
- AI가 스스로 학습할 수 있도록 하는 과정에서 연구자의 피드백이 필요함.
- 하지만 일단 학습이 끝나면, AI는 스스로 학습한 내용을 바탕으로 분류할 수 있음.
❌ API 비용과 연산 시간이 더 오래 걸릴 수 있음
- 매번 피드백을 제공하고, AI가 학습하는 과정이 추가되므로 API 비용이 증가할 가능성이 있음.
결론: 기억을 가진 AI는 더 나은 태깅을 할 수 있다!
이 연구는 LLM이 기억을 가지면 성능이 훨씬 더 좋아질 수 있다는 점을 실험적으로 증명했습니다.
✅ 단순 Zero-Shot 방식보다 메모리 프롬팅, 메모리 강화 방식이 훨씬 우수
✅ AI에게 이전 태깅 결과를 제공하면 더 일관된 판단 가능
✅ AI가 인간처럼 "피드백을 통해 학습"하면 성능이 크게 향상됨
앞으로 AI 기반 텍스트 태깅 연구에서는 메모리 강화 기법을 적극적으로 활용해야 할 것입니다. 🚀