DeepSeek-R1-Zero

目的与范围

本文档全面概述了DeepSeek-R1-Zero，这是一个通过纯强化学习训练、未经监督微调的大型语言模型。它涵盖了模型架构、训练方法、涌现的推理能力以及使用建议。有关在强化学习之前包含冷启动数据的DeepSeek-R1的信息，请参阅DeepSeek-R1。

来源：README.md33-37

模型概述

DeepSeek-R1-Zero是一个拥有6710亿参数的混合专家（MoE）语言模型，每个token激活370亿参数。它代表了人工智能研究的一个重要里程碑，是第一个公开的研究模型，验证了大型语言模型的推理能力可以通过纯强化学习来激励，而无需作为先决步骤依赖于监督微调（SFT）。

该模型具有

总计6710亿参数（每个token激活370亿）
128K上下文长度
基于DeepSeek-V3-Base的MoE架构

尽管其训练方法具有创新性，DeepSeek-R1-Zero也面临着一些挑战，包括无限重复、可读性差和语言混杂，这些问题促使其后续模型DeepSeek-R1的开发。

来源：README.md33-37 README.md68-79 README.md51-53

架构与技术细节

DeepSeek-R1-Zero基于DeepSeek-V3-Base架构构建，采用了混合专家（MoE）设计。这种架构使得模型在保持庞大的总参数量（6710亿）的同时，在每次前向传播中仅激活其中一部分（370亿），从而显著提高了计算效率。

模型架构图

来源：README.md68-79

训练方法

与传统依赖强化学习之前进行监督微调的语言模型不同，DeepSeek-R1-Zero直接在基础模型上使用大规模强化学习进行训练。这种方法代表了一种新颖的训练范式。

训练过程图

纯强化学习的方法使得模型能够自然地发现和发展推理能力，而无需通过监督示例进行显式教授。这使得DeepSeek-R1-Zero在研究推理能力如何在大型语言模型中涌现方面尤为引人注目。

来源：README.md51-53

涌现的推理能力

通过纯强化学习，DeepSeek-R1-Zero发展出了几种复杂的推理行为：

思维链（CoT）推理：能够将复杂问题分解为逐步推理过程的能力
自我验证：检查自身工作并验证结论的能力
反思：重新考虑初步方法并优化推理路径的能力
长推理链：在延长序列中保持连贯推理的能力

这些能力是通过强化学习激励自然涌现的，而不是通过监督示例显式教授的。

来源：README.md33-35 README.md51-53

性能与基准测试

DeepSeek-R1-Zero在各种推理基准上表现出色，特别是在数学推理任务上。下表显示了一些选定的性能指标：

基准类别	测试	得分
数学	AIME 2024 (Pass@1)	高性能
数学	MATH-500 (Pass@1)	强劲表现
数学	CNMO 2024 (Pass@1)	高级能力
推理	GPQA-Diamond (Pass@1)	竞争性表现
推理	DROP (3-shot F1)	出色表现

尽管模型通过纯强化学习实现了出色的推理能力，但其后续模型DeepSeek-R1在基准测试中的得分普遍更高。

来源：README.md101-133

挑战与局限性

尽管DeepSeek-R1-Zero拥有强大的推理能力，但它也表现出一些显著的局限性：

无限重复：模型有时会陷入重复的推理循环
可读性差：与经过监督训练的模型相比，其输出的结构性较差，不易理解
语言混杂：模型偶尔会在响应中混合使用不同的语言

这些挑战促成了DeepSeek-R1的开发，它在强化学习之前结合了冷启动数据，以解决这些问题，同时保持了强大的推理能力。

来源：README.md36-37

与其他模型的关联

DeepSeek模型家族层级

DeepSeek-R1-Zero代表了DeepSeek模型家族中一个专注于纯强化学习的独特分支。它的能力和局限性指导了DeepSeek-R1的开发，该模型在强化学习之前结合了冷启动数据，以解决无限重复和可读性差等问题，同时保持了强大的推理能力。

来源：README.md33-39 README.md51-56

使用建议

为获得DeepSeek-R1-Zero的最佳性能，请遵循以下建议：

温度设置：使用0.6的温度（范围0.5-0.7）以防止无限重复
用户提示：避免系统提示；将所有指令包含在用户提示中
数学问题：包含类似“请一步一步推理，并将最终答案放在\boxed{}内”的指令
思考模式：通过让模型以“<think>\n”开头来强制思考模式

示例提示结构

User: Solve the following problem step by step: 
If 3x + 4y = 10 and 2x - 5y = 7, find the values of x and y.
Please reason step by step, and put your final answer within \boxed{}.