本文档全面概述了DeepSeek-R1-Zero,这是一个通过纯强化学习训练、未经监督微调的大型语言模型。它涵盖了模型架构、训练方法、涌现的推理能力以及使用建议。有关在强化学习之前包含冷启动数据的DeepSeek-R1的信息,请参阅DeepSeek-R1。
DeepSeek-R1-Zero是一个拥有6710亿参数的混合专家(MoE)语言模型,每个token激活370亿参数。它代表了人工智能研究的一个重要里程碑,是第一个公开的研究模型,验证了大型语言模型的推理能力可以通过纯强化学习来激励,而无需作为先决步骤依赖于监督微调(SFT)。
该模型具有
尽管其训练方法具有创新性,DeepSeek-R1-Zero也面临着一些挑战,包括无限重复、可读性差和语言混杂,这些问题促使其后续模型DeepSeek-R1的开发。
来源:README.md33-37 README.md68-79 README.md51-53
DeepSeek-R1-Zero基于DeepSeek-V3-Base架构构建,采用了混合专家(MoE)设计。这种架构使得模型在保持庞大的总参数量(6710亿)的同时,在每次前向传播中仅激活其中一部分(370亿),从而显著提高了计算效率。
与传统依赖强化学习之前进行监督微调的语言模型不同,DeepSeek-R1-Zero直接在基础模型上使用大规模强化学习进行训练。这种方法代表了一种新颖的训练范式。
纯强化学习的方法使得模型能够自然地发现和发展推理能力,而无需通过监督示例进行显式教授。这使得DeepSeek-R1-Zero在研究推理能力如何在大型语言模型中涌现方面尤为引人注目。
通过纯强化学习,DeepSeek-R1-Zero发展出了几种复杂的推理行为:
这些能力是通过强化学习激励自然涌现的,而不是通过监督示例显式教授的。
来源:README.md33-35 README.md51-53
DeepSeek-R1-Zero在各种推理基准上表现出色,特别是在数学推理任务上。下表显示了一些选定的性能指标:
| 基准类别 | 测试 | 得分 |
|---|---|---|
| 数学 | AIME 2024 (Pass@1) | 高性能 |
| 数学 | MATH-500 (Pass@1) | 强劲表现 |
| 数学 | CNMO 2024 (Pass@1) | 高级能力 |
| 推理 | GPQA-Diamond (Pass@1) | 竞争性表现 |
| 推理 | DROP (3-shot F1) | 出色表现 |
尽管模型通过纯强化学习实现了出色的推理能力,但其后续模型DeepSeek-R1在基准测试中的得分普遍更高。
尽管DeepSeek-R1-Zero拥有强大的推理能力,但它也表现出一些显著的局限性:
这些挑战促成了DeepSeek-R1的开发,它在强化学习之前结合了冷启动数据,以解决这些问题,同时保持了强大的推理能力。
DeepSeek-R1-Zero代表了DeepSeek模型家族中一个专注于纯强化学习的独特分支。它的能力和局限性指导了DeepSeek-R1的开发,该模型在强化学习之前结合了冷启动数据,以解决无限重复和可读性差等问题,同时保持了强大的推理能力。
来源:README.md33-39 README.md51-56
为获得DeepSeek-R1-Zero的最佳性能,请遵循以下建议:
User: Solve the following problem step by step:
If 3x + 4y = 10 and 2x - 5y = 7, find the values of x and y.
Please reason step by step, and put your final answer within \boxed{}.