[ML/Data] Data Recipes for Reasoning Models

Title

Data Recipes for Reasoning Models

Summary

이 논문은 추론 능력을 갖춘 모델을 위한 SFT(Supervised Fine-Tuning) 데이터셋 구성 과정을 체계적으로 분석하고, 데이터 품질에 대한 기존의 통념을 재검토하고자 한다. 최근 수학, 코딩, 과학 등 고차원 추론을 요하는 분야에서 강력한 성능을 보이는 모델들은 보통 강력한 베이스 모델 위에, SFT나 RL(Reinforcement Learning) 등 후처리 학습(post-training) 단계를 거쳐 추론 능력을 부여받는다. 이 과정을 통해 모델은 “생각의 흐름(thinking tokens)“을 생성하며 답을 유도할 수 있게 된다.

논문은 특히 고품질 SFT 데이터의 중요성에 주목하며, 추론 성능 향상을 위한 다양한 데이터 구성 전략을 실험적으로 분석했다. 주요 인사이트는 다음과 같다:

하나의 질문에 대해 여러 답변을 생성하는 기법은 데이터셋 규모를 최대 16배까지 확대할 수 있으며, 이는 성능 향상으로 직결된다.
성능이 높은 모델이 항상 좋은 “교사 모델(teacher model)“은 아니다.
다양한 정답 필터링 및 검증 기법은 성능 향상에 유의미한 효과를 주지 못했다.
질문을 다양하게 구성하기보다, 소수의 고품질 질문 출처에서 선택하는 것이 더 높은 성능을 가져온다.
LLM의 난이도 평가나 응답 길이를 기반으로 한 질문 필터링이, 기존 프리트레이닝에서 사용하는 임베딩 기반 필터링보다 더 효과적이다.

논문은 각 데이터 파이프라인 단계를 개별적으로 절제(ablation)하여 전략의 효과를 측정하였으며, 모든 실험은 DeepSeek-R1을 교사 모델로 사용하여 수행되었다. 주요 파이프라인 단계는 다음과 같다:

질문 생성: 완전 합성, 반합성, 비합성 전략을 비교했으나, 단순한 합성 방식이 최종적으로 선택됨.
질문 믹싱: 다양한 질문 출처를 혼합할 경우 성능이 하락하며, 2개 이내의 고품질 출처만 혼합하는 것이 가장 효과적.
질문 필터링: 도메인에 따라 효과적인 필터링 기준이 다르며, 코드는 난이도 기반 필터링, 수학과 과학은 응답 길이 기반 필터링이 우수.
중복 제거 및 다중 응답 생성: 코드 도메인은 중복 제거 없이 진행하고, 수학/과학은 정확한 중복 제거를 적용. 모든 도메인에서 질문당 16개의 응답을 생성함.
정답 필터링: 직관적으로는 필요하지만, 실제로는 성능 향상에 큰 도움이 되지 않음.

종합적으로, 데이터의 양과 성능 사이에는 강한 양의 상관관계가 관찰되었으며, 좋은 추론 모델을 만들기 위해서는 정제된 데이터 파이프라인 설계가 무엇보다 중요하다는 점을 강조한다.