菜单

模型架构

相关源文件

本文档提供了DeepSeek-R1模型架构的技术概述,解释了其基本设计、关键组件和架构特征。它涵盖了DeepSeek-R1-Zero和DeepSeek-R1所依据的基础架构,以及它们之间的架构相似性和差异。有关各个模型的具体细节,请参阅DeepSeek-R1-ZeroDeepSeek-R1。有关从DeepSeek-R1衍生的蒸馏模型的信息,请参阅蒸馏模型

基础架构概述

DeepSeek-R1和DeepSeek-R1-Zero基于DeepSeek-V3-Base架构构建,该架构采用了混合专家(MoE)设计。这种架构使模型能够拥有庞大的参数量,同时在推理过程中保持计算效率。

关键架构规格

  • 总参数量:6710亿
  • 激活参数量:370亿(每次前向传播)
  • 上下文长度:128K词元
  • 架构类型:稀疏混合专家(MoE)

下图说明了DeepSeek-R1模型系列的顶层架构

来源:README.md78-79

混合专家架构

DeepSeek-R1模型的核心创新是混合专家(MoE)架构,它允许模型拥有庞大的总参数量(6710亿),而在每次前向传播时仅激活其中一小部分(370亿)。

MoE架构工作原理如下:

  1. 路由器网络决定哪个专家处理每个token。
  2. 每个token仅被发送到选定的专家子集。
  3. 选定专家的输出被组合起来以产生最终输出。
  4. 这种方法使模型能够拥有专门的专家网络,可以专注于特定类型的token或任务。

这种架构提供了几项优势:

  • 模型容量显著增加,而计算量不成比例增加。
  • 能够为不同任务或领域开发专业专家。
  • 通过专业专家网络提高推理能力。

来源:README.md71-79

训练方法对架构的影响

DeepSeek-R1-Zero和DeepSeek-R1之间的架构差异主要在于它们的训练方法,而不是它们的基础架构。这两个模型共享相同的DeepSeek-V3-Base MoE架构,但在训练方式上有所不同,这会影响它们的行为和能力。

来源:README.md31-38 README.md52-56

蒸馏过程架构

蒸馏模型源自DeepSeek-R1,但基于不同的架构家族(Qwen和Llama)。蒸馏过程将DeepSeek-R1的推理能力迁移到更小、更高效的模型中。

来源:README.md60-63 README.md82-97

模型架构比较

下表提供了DeepSeek-R1家族模型架构的比较概述。

模型基础架构总参数激活参数上下文长度训练方法
DeepSeek-R1-ZeroDeepSeek-V3 MoE6710亿370亿128K纯RL(无SFT)
DeepSeek-R1DeepSeek-V3 MoE6710亿370亿128K冷启动 + RL
DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B15亿15亿-来自DeepSeek-R1的蒸馏
DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7B70亿70亿-来自DeepSeek-R1的蒸馏
DeepSeek-R1-Distill-Llama-8BLlama-3.1-8B80亿80亿-来自DeepSeek-R1的蒸馏
DeepSeek-R1-Distill-Qwen-14BQwen2.5-14B140亿140亿-来自DeepSeek-R1的蒸馏
DeepSeek-R1-Distill-Qwen-32BQwen2.5-32B320亿320亿-来自DeepSeek-R1的蒸馏
DeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-Instruct700亿700亿-来自DeepSeek-R1的蒸馏

来源:README.md67-96

部署的架构影响

DeepSeek-R1和DeepSeek-R1-Zero的MoE架构对部署有特定的影响。

  1. 专用部署:由于MoE架构,这些模型需要特殊的部署方法,如文档中所述,文档指向DeepSeek-V3仓库以获取部署说明。

  2. 蒸馏模型效率:基于Qwen和Llama等密集架构的蒸馏模型,可以使用vLLM和SGLang等标准框架进行部署。

来源:README.md164-168 README.md170-184

DeepSeek-R1模型的架构设计影响了多项使用注意事项。

  1. 温度设置:由于MoE架构,建议使用0.5-0.7的温度范围(推荐0.6),以防止无限重复或不连贯的输出。

  2. 提示格式:该模型针对没有系统提示的用户提示进行了优化,这会影响指令的提供方式。

  3. 思考模式:模型设计为使用``标签采用思考模式,这是实现最佳推理性能的架构考虑因素。

来源:README.md186-197