본문 바로가기
Knowledge/Science Papers

[ML/LLM] Learning Dynamics of LLM Finetuning

by DonK 2025. 6. 25.

Title

Learning Dynamics of LLM Finetuning (ICLR 2025 outstanding paper)

Links

Summary

이 페이퍼는 LLM (Large Language Model) 파인튜닝의 동작 메커니즘을 모델의 예측 변화 (decomposition) 을 통해 분석하려는 시도를 다룹니다.

"After an GD update on x_i, how does the model's prediction on x_i change?"

LLM 파인튜닝의 이해를 위한 접근

  • 문제 제기
    • 특정 샘플 x_i에 대해 GD(Gradient Descent) 업데이트를 수행한 후, 모델이 해당 x_i에 대해 어떻게 예측을 변화시키는지를 분석합니다.
  • 난점들
    • LLM은 고차원이며 순차적 특성이 강함
    • 다양한 파인튜닝 알고리즘 존재
    • 대부분 사전학습된 모델에서 시작하기 때문에, 제로에서 시작하는 기존 분석법과 다름파인튜닝 단계별 변화 분석
  • SFT (Supervised Fine-Tuning):
    • 모델은 샘플 (x_u, y_u)로부터 학습할 때, 정답 y_u에 대해 강한 확신 상승을 유도함
    • 유사한 응답들의 confidence도 함께 소폭 증가
  • DPO (Direct Preference Optimization):
    • 사람의 선호에 부합하는 응답을 유도함
    • 무엇을 해야 하는지뿐 아니라, 무엇을 하지 말아야 하는지도 함께 학습DPO에서의 “압축 효과(squeezing effect)”
  • 관찰
    • DPO를 너무 오래 수행하면, 원래 원했던 긍정적 응답마저도 확신도가 감소
    • 이는 softmax 기반 cross-entropy 손실 하에서 부정 샘플에 대한 gradient ascent가 전체 분포를 끌어내리는 효과를 초래하기 때문
    • DPO 중에는 긍정/부정 응답 모두의 확신도가 감소하는 반면, SFT는 긍정 응답의 확신도는 잘 떨어지지 않음
    • "if everything we observe is becoming less confident, where has the probability mass gone?"

  • 예측 분포의 변화:
    • 부정 응답의 확신도 감소는 보장됨
    • 감소된 확률 질량은 기존에 가장 확신하지 않던 응답(y*)로 몰림
    • 경향성:
      • “부자는 더 부유해지고, 가난한 자는 더 가난해진다” (rich-get-richer)
      • peakier한 분포일수록 압축이 더 강함
      • 작아진 분포일수록 압축 효과 악화
      • y*는 긍정 응답과도 비슷하지 않은 경우가 많고, 부정 응답은 분포의 저지대에 위치하는 경우가 많아, 전체 응답의 확신도가 낮아짐 → 반복형 응답(repeater behavior) 유발 가능성
  • 해결 방안 제시:
    • 부정 gradient의 세기나 부정 샘플의 위치를 조절하면 squeezing 효과를 완화할 수 있음

댓글