Article Review

[LLM] Li et al (2025) LLaMA도 BERT처럼 만들 수 있다? LS-LLaMA(Label Supervised LLaMA)

Dr. Julia 2025. 6. 4. 16:12

🔍 왜 또 새로운 파인튜닝 방식이 필요할까?

요즘 LLM(대형 언어 모델)의 시대죠. GPT-4, Claude, Gemini, LLaMA 등 거대한 모델들이 수많은 자연어 처리(NLP) 작업에서 ‘사람처럼’ 말을 잘합니다. 특히 제로샷(zero-shot), 퓨샷(few-shot)처럼 사전 학습된 지식만으로 문제를 풀어내는 능력은 놀랍죠. 하지만 이 모델들을 실제로 분류(classification) 같은 단순하면서도 명확한 태스크에 써보면… 기대보다 결과가 실망스러울 때가 많습니다.

예를 들어 영화 감성 분류(SST-2), 뉴스 카테고리 분류(AGNews), 금융 감성 분석(Twitter-Fin) 같은 작업에서는 BERT나 RoBERTa 같은 구형 모델이 훨씬 정확도가 높습니다. 왜 그럴까요? 바로 기존 LLM들이 텍스트 생성(generation)에 최적화돼 있어서, 분류처럼 “딱 떨어지는” 정답을 요구하는 작업엔 부적합하기 때문입니다.

이 논문은 바로 이 점에 착안합니다. “생성 중심”인 기존 LLM 아키텍처를 분류에 최적화할 수 없을까? BERT처럼 라벨이 명확한 태스크에 강한 모델로 바꿀 수 없을까? 이 질문에서 출발한 것이 바로 LS-LLaMA(Label Supervised LLaMA)입니다.

🔧 구조적 이유: 생성과 분류의 목적 차이

LLM(GPT, LLaMA 등)은 대부분 디코더-only 아키텍처입니다. 이 구조는 앞의 단어만 보고 다음 단어를 예측하는 데 최적화되어 있습니다. 즉, 전체 문장의 의미를 “요약”하기보다는 문장을 “이어 쓰는” 데 초점을 맞춥니다.

반면, 분류 작업(classification)은 다음과 같은 특성이 있습니다:

  • 고정된 라벨 공간이 존재 (예: 긍정/부정, 정치/경제 등)
  • 가능한 출력이 단 몇 개에 불과 (생성과 달리 다양성을 요구하지 않음)
  • 입력 전체를 요약한 표현이 필요

이런 점에서 보면, BERT처럼 인코더 기반으로 문장의 양방향 문맥을 파악하는 모델이 분류에 더 적합한 구조인 셈입니다. 실제로도 BERT, RoBERTa는 텍스트 분류에서 강력한 성능을 지속적으로 보여주고 있습니다.


📉 실험적 증거: GPT-3, LLaMA의 분류 성능

실제 실험에서도 LLM이 분류에 약한 경향이 명확히 드러납니다.

예를 들어, 이 논문에서 제시된 결과에 따르면:

모델SST2 정확도
GPT-3 (175B, 제로샷) 54.3%
LLaMA-2-7B (제로샷) 76.3%
BERT-Base 92.78%
LS-LLaMA 96.67%
 
  • 제로샷 LLM은 라벨을 직접 예측하지 않고, “문장 생성”을 하려고 하기 때문에 성능이 낮습니다.
  • 프롬프트를 잘 설계하고, 인스트럭션 튜닝을 해도 BERT만큼은 잘 안 됩니다.
  • 하지만, **LS-LLaMA처럼 라벨 감독 학습(label supervision)**을 적용하면, LLM도 분류 성능이 대폭 향상됩니다.

🛠️ 실용적 대응: 분류 성능을 올릴 수 있는 방법들

LLM이 분류에 약한 구조라고 해서 그대로 써야 하는 건 아닙니다. 아래와 같은 보완 방법들이 존재합니다:

보완 방법요약 설명효과
프롬프트 엔지니어링 출력 형태를 정교하게 설계 (예: "다음 중 하나만 골라: 긍정/부정") 중간 정도 개선
Few-shot 튜닝 예시 문장 + 정답을 입력 약간 개선
Instruction-tuning 사전학습 단계에서 명시적으로 분류 작업 주입 괜찮은 개선
LoRA + Label supervision LLM을 직접 분류 전용으로 파인튜닝 ✅ 가장 확실한 개선
Causal mask 제거 (LS-unLLaMA) 구조 자체를 분류 친화형으로 전환 ✅ 분류 + NER 모두 강력
 

🔚 결론

  • 기본 LLM은 분류 작업에 ‘구조적으로 불리’한 면이 있습니다.
  • 하지만, **라벨 기반 파인튜닝(label-supervised finetuning)**이나 **구조적 수정(예: causal mask 제거)**을 통해 충분히 BERT를 능가하는 분류 모델로 전환이 가능합니다.
  • 요약하자면:
  • ❌ “LLM은 분류에 약하다” →
    ✅ “기본 상태에서는 약하지만, 잘 다루면 매우 강하다”

🛠️ 핵심 아이디어: LLaMA도 BERT처럼 만들 수 있다?

BERT와 LLaMA는 언뜻 비슷해 보이지만, 태생적으로 완전히 다른 구조를 가졌습니다.

  • BERT는 양방향 인코더 기반 모델입니다. 문장의 앞뒤 맥락을 모두 보며 학습합니다. 그래서 ‘이 문장의 전체 의미가 무엇인지’를 파악하는 데 강합니다.
  • 반면 LLaMA는 디코더-only 아키텍처로 구성된 LLM입니다. 즉, 앞쪽 단어만 보고 다음 단어를 예측하는 식의 단방향적인 텍스트 생성에 초점을 둡니다. 이 구조에서는 미래 정보를 참조할 수 없도록 causal mask가 걸려 있어, 앞에서 본 정보만 가지고 추론합니다.

이런 구조적 차이 때문에, 지금까지는 LLaMA 같은 디코더 모델이 텍스트 분류나 개체명 인식처럼, 정확한 ‘정답’을 예측해야 하는 작업에는 부적합하다고 여겨졌습니다. LLaMA는 주어진 문장에서 "정답을 말해줘"가 아니라, "다음에 어떤 말을 이어가면 자연스러울까?"에 특화되어 있었기 때문입니다.

하지만 이 논문은 그 가정을 깨버립니다.

“LLaMA의 디코더 레이어에서 나오는 벡터 표현(latent representation)을 적절히 가공하면, BERT처럼 텍스트를 잘 ‘이해하고 분류하는’ 모델로 쓸 수 있다.”

이게 바로 LS-LLaMA(Label Supervised LLaMA)의 핵심 아이디어입니다.

🎯 구체적인 방법은 이렇습니다:

  1. 입력 문장을 기존처럼 토크나이즈(tokenize)해서 LLaMA에 넣습니다.
  2. 마지막 디코더 레이어에서 출력되는 벡터 표현(latent representation)을 추출합니다. 이 벡터는 원래는 다음 토큰을 예측하기 위한 용도였지만, 문장 전체 의미를 상당히 잘 반영하고 있다는 점에 주목합니다.
  3. 이 벡터를 fully connected layer를 거쳐 **레이블 공간(label space)**으로 투사(project)합니다. 예를 들어 감성 분석이라면 “긍정 / 부정”, 뉴스 분류라면 “정치 / 경제 / 스포츠 / 기술” 같은 클래스들입니다.
  4. 모델이 출력한 로짓(logits)과 정답 라벨 사이의 cross-entropy loss를 계산하고, 이를 기반으로 **LoRA(저차원 어댑터 기반 파인튜닝 기법)**를 이용해 LLaMA를 파인튜닝합니다.

결과적으로, 이렇게 학습된 LS-LLaMA는 문장을 생성하는 대신, 정확하게 분류하는 데 특화된 디코더 모델로 변신하게 됩니다. 생성 중심 LLM이 아니라, 분류 특화 모델로 다시 태어나는 것이죠.


🧠 왜 이게 중요한가?

기존에는 분류 작업을 하려면 BERT처럼 별도의 인코더 모델을 따로 써야 했습니다. LLM은 프롬프트 주고 텍스트 생성시키는 데에만 주로 쓰였고, "얘는 분류에는 약하다"는 인식이 널리 퍼져 있었죠.

하지만 이 논문은 말합니다:

“굳이 LLM을 생성 전용으로만 쓸 필요는 없다. LLM 내부의 표현 벡터는 생각보다 강력하고, 잘만 활용하면 BERT보다 더 잘 분류할 수도 있다.”

특히 LLaMA 같은 오픈소스 LLM은 구조를 직접 수정하거나 원하는 방식으로 파인튜닝하기에 적합하기 때문에, LLM을 더 다양한 용도로 확장할 수 있는 가능성을 보여주는 연구입니다.


한 줄 요약하자면,

"LLaMA를 '생성기'가 아니라 '이해기'로 바꿀 수 있다."

이게 LS-LLaMA의 출발점이자, 기존 LLM 활용법에 대한 인식을 바꾸는 중요한 실험입니다.

 

⚙️ LS-LLaMA vs LS-unLLaMA: 뭐가 더 좋을까?

LS-LLaMA와 LS-unLLaMA는 모두 “LLaMA를 BERT처럼 분류 태스크에 활용할 수 있다”는 동일한 목표를 지니지만, 가장 큰 차이점은 causal mask의 유무에 있습니다. 이 차이가 어떻게 두 모델의 구조와 성능에 영향을 주는지 하나씩 짚어보겠습니다.


🔒 LS-LLaMA: causal mask를 유지한 모델

LS-LLaMA는 기존 LLaMA의 구조를 거의 그대로 유지합니다. 즉, causal mask가 적용되어 있어 토큰이 자기 앞에 있는 단어만 볼 수 있습니다. 이 때문에 문장의 마지막 토큰 하나만이 전체 문맥을 가장 풍부하게 담고 있고, 분류에 사용할 벡터도 마지막 토큰의 표현만을 사용합니다.

  • 장점
    • 기존 LLaMA 구조를 그대로 활용하므로 구현이 간단합니다.
    • 적은 데이터로도 안정적인 학습이 가능합니다.
    • 특히 작은 데이터셋(SST2, SST5, Twitter-Fin 등)에서 빠른 수렴낮은 오버피팅을 보여줍니다.
  • 단점
    • causal mask 때문에 양방향 문맥 정보가 제한됩니다.
    • 토큰 단위의 세밀한 예측(NER 등)에는 부적합하며 성능이 떨어집니다.

🔓 LS-unLLaMA: causal mask를 제거한 모델

LS-unLLaMA는 기존 LLaMA의 한계를 넘어선 확장형입니다. 이 버전에서는 causal mask를 제거하고, 디코더 구조를 양방향 self-attention이 가능하도록 수정했습니다. 이렇게 하면 모든 토큰이 서로를 참조할 수 있으므로, 문장의 전체 정보를 더 고르게 파악할 수 있게 됩니다.

  • 장점
    • 양방향 문맥 이해가 가능하여, BERT와 유사한 구조적 장점을 갖습니다.
    • 특히 NER(개체명 인식) 같은 토큰 수준의 예측에서 압도적인 성능 향상을 보입니다.
      → 예: CoNLL2003에서 F1 score 93.19% 달성 (RoBERTa-Large보다 높음)
    • 텍스트 분류에서도, 충분한 데이터만 있다면 LS-LLaMA보다 더 좋은 성능을 기록합니다.
  • 단점
    • causal mask를 제거한 구조는 학습 초기 단계에서 불안정성이 커질 수 있습니다.
    • 파라미터 재구성이 필요해 상대적으로 더 많은 학습 데이터가 필요합니다.
    • 작은 데이터셋에서는 오히려 성능 저하 또는 오버피팅이 발생할 수 있습니다.

🧪 실제 실험 결과로 비교해보면?

태스크LS-LLaMALS-unLLaMA
SST2 (감성 이진 분류) 96.67% ✅ 97.36% (더 우수)
SST5 (세분화 감성 분류) ✅ 62.31% 60.50% (조금 낮음)
AGNews (뉴스 카테고리) 95.38% ✅ 95.68%
Twitter-Fin (금융 감성) ✅ 91.87% 91.54% (소폭 열세)
CoNLL2003 (NER) 74.76% ✅ 93.19%
OntoNotes (NER) 77.41% ✅ 92.10%
 

표에서 보듯이,

  • 데이터셋이 크고 일반적인 경우 (SST2, AGNews 등)에는 LS-unLLaMA가 약간 더 좋습니다.
  • 작고 도메인 특화된 데이터셋 (Twitter-Fin, SST5 등)에서는 LS-LLaMA가 안정적입니다.
  • NER 같은 구조화된 예측 작업에서는 LS-unLLaMA가 압도적으로 뛰어납니다.

🧠 결론적으로, 누가 더 좋은가?

  • 빠른 구현, 소규모 데이터셋, 범용적인 분류가 목적이라면 → LS-LLaMA
  • NER, 다국어 분류, 고성능 추론, 그리고 충분한 학습 자원이 있다면 → LS-unLLaMA

두 모델은 성능과 구조의 trade-off를 보여주는 좋은 사례입니다. 단순한 구조의 유지와 학습 안정성을 원한다면 LS-LLaMA가, 더 깊은 표현력과 확장성을 추구한다면 LS-unLLaMA가 적합합니다.

📊 성능 비교: 진짜 잘 되나?

LS-LLaMA와 LS-unLLaMA는 정말로 기존 BERT, RoBERTa보다 더 잘 작동할까요? 논문은 이를 검증하기 위해 다양한 텍스트 분류 및 개체명 인식(NER) 작업에서 대규모 실험을 수행합니다. 사용된 데이터셋은 감성 분석, 뉴스 분류, 금융 문서 분류, 다국어 리뷰 분류 등 매우 폭넓습니다. 그 결과, 기존의 제로샷 LLM이나 인스트럭션 튜닝 방식보다 훨씬 뛰어난 성능을 보여줍니다.

🔡 텍스트 분류 (Multiclass Classification)

4개의 영어 데이터셋 결과를 보면:

모델SST2 (긍/부정)AGNews (뉴스)Twitter-Fin (금융)SST5 (5단계 감성)
GPT-3 (제로샷) 54.3% 43.9% - -
LLaMA-2-7B (제로샷) 76.3% 37.4% 23.4% 39.1%
LLaMA-2-7B (인스트럭션 튜닝) 91.97% 52.4% 68.72% 43.35%
RoBERTa-Large 96.10% 94.78% 90.95% 59.64%
LS-LLaMA-2-7B 96.67% 95.38% 91.87% ✅ 62.31%
LS-unLLaMA-2-7B ✅ 97.36% ✅ 95.68% 91.54% 60.50%
 
  • SST2: 감성 이진 분류에서는 LS-unLLaMA가 RoBERTa-Large를 넘어서는 최고 성능을 기록했습니다.
  • SST5: 5단계 감성 분류에서는 LS-LLaMA가 우세. 작은 데이터셋에서는 causal mask가 있는 쪽이 안정적입니다.
  • Twitter-Fin: 도메인 특화 금융 데이터에서도 기존 LLM보다 20%포인트 이상 높은 성능을 보여줬습니다.
  • AGNews: 제로샷 성능이 37%였던 것에 비해, LS-LLaMA는 95% 이상으로 대폭 향상되었습니다.

즉, 이 방식은 기존 LLM 대비 최대 4배 이상 성능 개선을 가져왔고, BERT/RoBERTa보다도 높은 정확도를 기록한 것입니다.


🗺️ 다국어 분류 (Multilingual Classification)

아마존 리뷰 데이터로 구성된 독일어, 영어, 스페인어, 중국어 분류 실험에서도 흥미로운 결과가 나왔습니다.

모델독어영어스페인어중국어평균
LLaMA-2-7B (제로샷) 9.23% 12.13% 7.43% 19.65% 12.11%
RoBERTa-Large-Multilingual 52.76% 53.64% 44.76% 66.90% 54.52%
LS-LLaMA 56.80% 58.82% 49.28% 68.72% 58.41%
LS-unLLaMA ✅ 56.90% ✅ 60.20% ✅ 49.68% ✅ 69.70% ✅ 59.21%
 
  • 제로샷 성능은 10% 안팎이었으나, LS 방식으로 파인튜닝 후 4~6배 성능 향상
  • RoBERTa-Multilingual보다도 평균 5%포인트 이상 더 정확함

🧾 개체명 인식 (NER)

모델CoNLL2003OntoNotes V5
LLaMA-2-7B (제로샷) 1.35% 1.20%
ChatGPT 67.20% 51.10%
BERT-Large 92.80% 89.27%
RoBERTa-Large 92.59% 91.72%
LS-LLaMA 74.76% 77.41%
LS-unLLaMA ✅ 93.19% ✅ 92.10%
 

NER 같은 토큰 단위 태스크에서는 causal mask가 제거된 LS-unLLaMA가 절대적으로 강합니다. BERT, RoBERTa를 넘는 F1 점수를 기록하며, 현존 최고 성능 수준에 도달했습니다.


🧪 추가 실험: Pooling과 크기 효과

🧩 Pooling 전략: 어떤 토큰 벡터를 써야 할까?

LLM의 디코더 구조에서는 출력 벡터가 여러 개 생성되지만, 분류 태스크에서는 그중 하나를 선택해서 전체 문장의 대표 벡터로 써야 합니다. 이를 위한 방법이 pooling인데, 실험에서는 세 가지 방식을 비교했습니다.

  1. 마지막 토큰 (last-token pooling): causal mask가 있으면 이게 가장 많은 정보를 담음
  2. 평균 (average pooling): 전체 토큰을 평균
  3. 최댓값 (max pooling): 가장 강한 표현을 선택
모델SST2SST5
LS-LLaMA (causal mask 있음) ✅ last: 96.67% ✅ last: 62.31%
LS-unLLaMA (mask 제거) ✅ max: 97.36% ✅ max: 60.50%
 
  • LS-LLaMA는 마지막 토큰이 전체 문맥을 반영하는 구조이므로 last pooling이 가장 효과적
  • LS-unLLaMA는 모든 토큰이 서로 정보를 공유하므로 max pooling이 더 나은 표현을 제공합니다

이 실험은 causal mask 구조에서 왜 마지막 토큰만 써야 했는지, 그리고 mask를 제거했을 때 전체 문맥을 어떻게 더 잘 활용할 수 있는지를 명확하게 보여줍니다.


🔍 모델 크기: 크면 무조건 좋을까?

7B와 13B LLaMA 모델 모두 실험에 사용되었는데, 놀랍게도 13B가 항상 더 좋은 것은 아니었습니다.

  • 큰 모델일수록 파라미터 수는 많지만, 훈련 데이터가 부족하면 쉽게 과적합(overfitting)
  • 특히 작은 데이터셋에서는 7B 모델이 오히려 더 안정적이고 성능이 좋았음
  • 예: SST5와 Twitter-Fin에서 13B 모델이 성능 저하

즉, 모델 사이즈를 늘리는 것이 무조건적인 성능 향상으로 이어지지 않습니다. 충분한 데이터가 확보되지 않은 상태에서 대형 모델을 사용하는 것은 오히려 역효과를 낼 수 있다는 점이 실험을 통해 확인된 것입니다.


💡 정리하면:

  • LS-LLaMA는 간단하게 구현 가능하고, 작은 데이터셋에서도 안정적
  • LS-unLLaMA는 구조적으로 더 강력하지만, 학습에는 더 많은 데이터가 필요
  • Pooling 전략은 구조에 따라 달라져야 하며, 잘못 고르면 성능이 하락할 수 있음
  • 모델 크기는 데이터 양과 정비례해야 성능이 올라가며, 무작정 크기만 키우는 것은 위험

 

🧠 한 줄 요약

“분류 태스크에 적합하지 않다던 디코더 기반 LLM, 잘만 다루면 BERT보다 낫다!”

이 연구는 LLaMA 같은 생성 중심 LLM도 라벨 기반 파인튜닝을 통해 정확한 예측 모델로 탈바꿈시킬 수 있음을 보여줍니다. 특히 causal mask 제거와 함께 사용하면 NER 같은 구조화된 예측 문제에도 탁월한 성능을 보이죠.

LoRA를 활용해 RTX 4090 한 장으로도 파인튜닝이 가능하다는 점도 실용적인 강점입니다.


✨ 마무리: LLM의 새로운 활용법 제안

기존의 LLM 활용은 거의 모두 "프롬프트 엔지니어링", "제너레이션"에 치중되어 있었습니다. 하지만 이 논문은 말합니다:

“LLM의 latent representation도 분류를 위한 텍스트 인코딩으로 쓸 수 있다.”

앞으로는 단순 프롬프트 조정이 아닌 구조적 파인튜닝을 통해, LLM을 다양한 태스크에 맞게 조정하는 흐름이 확대될 것이라는 걸 시사합니다.