deepseekr11 [LLM/NLP] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning TitleDeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement LearningLinkshttps://arxiv.org/abs/2501.12948https://huggingface.co/deepseek-ai/DeepSeek-R1https://github.com/deepseek-ai/DeepSeek-R1Summary1. DeepSeek-R1 개요DeepSeek-R1은 범용 대규모 언어 모델을 오픈소스로 구현하고, 이를 효과적으로 학습·배포할 수 있는 새로운 접근 방식을 제안하는 연구입니다. 전 세계 다양한 데이터셋을 ‘글로벌 디스패칭(Global Dispatching)’이라는 독특한 전략으로 수집·전처리하여, 고품질 언어 표현 능.. 2025. 2. 9. 이전 1 다음