本文档提供了 deepseek-ai/DeepSeek-R1 代码库的全面技术概述,该代码库包含一系列专门针对推理能力的大型语言模型。内容涵盖模型架构、训练方法、部署选项和使用指南。
有关特定模型架构的详细信息,请参阅模型架构。有关模型使用说明,请参阅模型使用。
DeepSeek-R1 是基于 DeepSeek-V3 MoE(混合专家)架构构建的一系列专门针对推理能力优化的语言模型。该系列包含两个大型基础模型和几个蒸馏模型。
模型层级图
两个基础模型均支持 128K token 的上下文长度,并基于 DeepSeek-V3 架构。
蒸馏模型将 DeepSeek-R1 的推理能力迁移到更小、更高效的架构上
| 模型 | 基础架构 | 参数 |
|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | 1.5B |
| DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | 7B |
| DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | 8B |
| DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | 14B |
| DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | 32B |
| DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | 70B |
DeepSeek-R1 模型采用了与传统语言模型不同的独特训练方法。
训练流程图
DeepSeek-R1-Zero 探索了一种新颖的训练范式,即直接在基础模型上应用强化学习,而不进行有监督微调。这种方法使模型能够发展出涌现的推理能力,包括:
DeepSeek-R1 采用了更结构化的流程:
这种全面的方法解决了 DeepSeek-R1-Zero 中观察到的局限性,例如重复输出、可读性差和语言混杂。
蒸馏过程包括:
DeepSeek-R1 模型可通过多种渠道提供,以适应不同的使用场景。
部署选项图
来源:README.md157-169 README.md170-184
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eagerpython3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2为获得 DeepSeek-R1 模型的最佳性能,请遵循以下技术指南:
模型为文件上传和网络搜索功能提供了特定的提示模板,详情请参阅 README。
DeepSeek-R1 模型已在多个领域进行了评估,包括:
在各种推理任务上,这些模型的性能与 OpenAI-o1 相当,其中蒸馏模型 DeepSeek-R1-Distill-Qwen-32B 的性能优于 OpenAI-o1-mini。
DeepSeek-R1 代码库(包括模型权重)根据 MIT 许可证授权,允许商业用途和衍生作品。蒸馏模型继承了其基础模型的许可条款: