本文档提供了DeepSeek-R1模型架构的技术概述,解释了其基本设计、关键组件和架构特征。它涵盖了DeepSeek-R1-Zero和DeepSeek-R1所依据的基础架构,以及它们之间的架构相似性和差异。有关各个模型的具体细节,请参阅DeepSeek-R1-Zero和DeepSeek-R1。有关从DeepSeek-R1衍生的蒸馏模型的信息,请参阅蒸馏模型。
DeepSeek-R1和DeepSeek-R1-Zero基于DeepSeek-V3-Base架构构建,该架构采用了混合专家(MoE)设计。这种架构使模型能够拥有庞大的参数量,同时在推理过程中保持计算效率。
关键架构规格
下图说明了DeepSeek-R1模型系列的顶层架构
DeepSeek-R1模型的核心创新是混合专家(MoE)架构,它允许模型拥有庞大的总参数量(6710亿),而在每次前向传播时仅激活其中一小部分(370亿)。
MoE架构工作原理如下:
这种架构提供了几项优势:
DeepSeek-R1-Zero和DeepSeek-R1之间的架构差异主要在于它们的训练方法,而不是它们的基础架构。这两个模型共享相同的DeepSeek-V3-Base MoE架构,但在训练方式上有所不同,这会影响它们的行为和能力。
来源:README.md31-38 README.md52-56
蒸馏模型源自DeepSeek-R1,但基于不同的架构家族(Qwen和Llama)。蒸馏过程将DeepSeek-R1的推理能力迁移到更小、更高效的模型中。
来源:README.md60-63 README.md82-97
下表提供了DeepSeek-R1家族模型架构的比较概述。
| 模型 | 基础架构 | 总参数 | 激活参数 | 上下文长度 | 训练方法 |
|---|---|---|---|---|---|
| DeepSeek-R1-Zero | DeepSeek-V3 MoE | 6710亿 | 370亿 | 128K | 纯RL(无SFT) |
| DeepSeek-R1 | DeepSeek-V3 MoE | 6710亿 | 370亿 | 128K | 冷启动 + RL |
| DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | 15亿 | 15亿 | - | 来自DeepSeek-R1的蒸馏 |
| DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | 70亿 | 70亿 | - | 来自DeepSeek-R1的蒸馏 |
| DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | 80亿 | 80亿 | - | 来自DeepSeek-R1的蒸馏 |
| DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | 140亿 | 140亿 | - | 来自DeepSeek-R1的蒸馏 |
| DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | 320亿 | 320亿 | - | 来自DeepSeek-R1的蒸馏 |
| DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | 700亿 | 700亿 | - | 来自DeepSeek-R1的蒸馏 |
DeepSeek-R1和DeepSeek-R1-Zero的MoE架构对部署有特定的影响。
专用部署:由于MoE架构,这些模型需要特殊的部署方法,如文档中所述,文档指向DeepSeek-V3仓库以获取部署说明。
蒸馏模型效率:基于Qwen和Llama等密集架构的蒸馏模型,可以使用vLLM和SGLang等标准框架进行部署。
来源:README.md164-168 README.md170-184
DeepSeek-R1模型的架构设计影响了多项使用注意事项。
温度设置:由于MoE架构,建议使用0.5-0.7的温度范围(推荐0.6),以防止无限重复或不连贯的输出。
提示格式:该模型针对没有系统提示的用户提示进行了优化,这会影响指令的提供方式。
思考模式:模型设计为使用``标签采用思考模式,这是实现最佳推理性能的架构考虑因素。