본문 바로가기

LLM7

[ML/Data] Data Recipes for Reasoning Models TitleData Recipes for Reasoning ModelsLinkshttps://arxiv.org/abs/2506.04178Summary이 논문은 추론 능력을 갖춘 모델을 위한 SFT(Supervised Fine-Tuning) 데이터셋 구성 과정을 체계적으로 분석하고, 데이터 품질에 대한 기존의 통념을 재검토하고자 한다. 최근 수학, 코딩, 과학 등 고차원 추론을 요하는 분야에서 강력한 성능을 보이는 모델들은 보통 강력한 베이스 모델 위에, SFT나 RL(Reinforcement Learning) 등 후처리 학습(post-training) 단계를 거쳐 추론 능력을 부여받는다. 이 과정을 통해 모델은 “생각의 흐름(thinking tokens)“을 생성하며 답을 유도할 수 있게 된다.논문은 특히.. 2025. 6. 25.
[ML/LLM] Gemini Embedding: Generalizable Embeddings from Gemini TitleGemini Embedding: Generalizeable Embeddings from GeminiLinkshttps://arxiv.org/abs/2503.07891SummaryLLM을 활용한 임베딩 생성 방법론을 다룸 (representation learning)작은 encoder 모델을 Gemini의 transformer layer로 초기화하여 추가 학습을 진행.추가 학습은 pre-finetuning과 finetuning 의 두 단계로 진행.최종 모델은 generalizeability를 위해 여러 checkpoint를 합쳐서 (e.g., mean pooling) 생성 (a.k.a., model soup) 2025. 6. 25.
[ML/LLM] Learning Dynamics of LLM Finetuning TitleLearning Dynamics of LLM Finetuning (ICLR 2025 outstanding paper)Linkshttps://arxiv.org/abs/2407.10490https://www.youtube.com/watch?v=OMTGbPPCaQgSummary이 페이퍼는 LLM (Large Language Model) 파인튜닝의 동작 메커니즘을 모델의 예측 변화 (decomposition) 을 통해 분석하려는 시도를 다룹니다."After an GD update on x_i, how does the model's prediction on x_i change?"LLM 파인튜닝의 이해를 위한 접근문제 제기특정 샘플 x_i에 대해 GD(Gradient Descent) 업데이트를 수행한 후,.. 2025. 6. 25.
[LLM/NLP] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning TitleDeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement LearningLinkshttps://arxiv.org/abs/2501.12948https://huggingface.co/deepseek-ai/DeepSeek-R1https://github.com/deepseek-ai/DeepSeek-R1Summary1. DeepSeek-R1 개요DeepSeek-R1은 범용 대규모 언어 모델을 오픈소스로 구현하고, 이를 효과적으로 학습·배포할 수 있는 새로운 접근 방식을 제안하는 연구입니다. 전 세계 다양한 데이터셋을 ‘글로벌 디스패칭(Global Dispatching)’이라는 독특한 전략으로 수집·전처리하여, 고품질 언어 표현 능.. 2025. 2. 9.