模型架构

基础架构概述

DeepSeek-R1和DeepSeek-R1-Zero基于DeepSeek-V3-Base架构构建，该架构采用了混合专家（MoE）设计。这种架构使模型能够拥有庞大的参数量，同时在推理过程中保持计算效率。

关键架构规格

下图说明了DeepSeek-R1模型系列的顶层架构

DeepSeek-R1模型的核心创新是混合专家（MoE）架构，它允许模型拥有庞大的总参数量（6710亿），而在每次前向传播时仅激活其中一小部分（370亿）。

MoE架构工作原理如下：

这种架构提供了几项优势：

DeepSeek-R1-Zero和DeepSeek-R1之间的架构差异主要在于它们的训练方法，而不是它们的基础架构。这两个模型共享相同的DeepSeek-V3-Base MoE架构，但在训练方式上有所不同，这会影响它们的行为和能力。

蒸馏模型源自DeepSeek-R1，但基于不同的架构家族（Qwen和Llama）。蒸馏过程将DeepSeek-R1的推理能力迁移到更小、更高效的模型中。

下表提供了DeepSeek-R1家族模型架构的比较概述。

模型	基础架构	总参数	激活参数	上下文长度	训练方法
DeepSeek-R1-Zero	DeepSeek-V3 MoE	6710亿	370亿	128K	纯RL（无SFT）
DeepSeek-R1	DeepSeek-V3 MoE	6710亿	370亿	128K	冷启动 + RL
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	15亿	15亿	-	来自DeepSeek-R1的蒸馏
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	70亿	70亿	-	来自DeepSeek-R1的蒸馏
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B	80亿	80亿	-	来自DeepSeek-R1的蒸馏
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	140亿	140亿	-	来自DeepSeek-R1的蒸馏
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	320亿	320亿	-	来自DeepSeek-R1的蒸馏
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	700亿	700亿	-	来自DeepSeek-R1的蒸馏

DeepSeek-R1和DeepSeek-R1-Zero的MoE架构对部署有特定的影响。

DeepSeek-R1模型的架构设计影响了多项使用注意事项。