菜单

DeepSeek-R1-Zero

相关源文件

目的与范围

本文档全面概述了DeepSeek-R1-Zero,这是一个通过纯强化学习训练、未经监督微调的大型语言模型。它涵盖了模型架构、训练方法、涌现的推理能力以及使用建议。有关在强化学习之前包含冷启动数据的DeepSeek-R1的信息,请参阅DeepSeek-R1

来源:README.md33-37

模型概述

DeepSeek-R1-Zero是一个拥有6710亿参数的混合专家(MoE)语言模型,每个token激活370亿参数。它代表了人工智能研究的一个重要里程碑,是第一个公开的研究模型,验证了大型语言模型的推理能力可以通过纯强化学习来激励,而无需作为先决步骤依赖于监督微调(SFT)。

该模型具有

  • 总计6710亿参数(每个token激活370亿)
  • 128K上下文长度
  • 基于DeepSeek-V3-Base的MoE架构

尽管其训练方法具有创新性,DeepSeek-R1-Zero也面临着一些挑战,包括无限重复、可读性差和语言混杂,这些问题促使其后续模型DeepSeek-R1的开发。

来源:README.md33-37 README.md68-79 README.md51-53

架构与技术细节

DeepSeek-R1-Zero基于DeepSeek-V3-Base架构构建,采用了混合专家(MoE)设计。这种架构使得模型在保持庞大的总参数量(6710亿)的同时,在每次前向传播中仅激活其中一部分(370亿),从而显著提高了计算效率。

模型架构图

来源:README.md68-79

训练方法

与传统依赖强化学习之前进行监督微调的语言模型不同,DeepSeek-R1-Zero直接在基础模型上使用大规模强化学习进行训练。这种方法代表了一种新颖的训练范式。

训练过程图

纯强化学习的方法使得模型能够自然地发现和发展推理能力,而无需通过监督示例进行显式教授。这使得DeepSeek-R1-Zero在研究推理能力如何在大型语言模型中涌现方面尤为引人注目。

来源:README.md51-53

涌现的推理能力

通过纯强化学习,DeepSeek-R1-Zero发展出了几种复杂的推理行为:

  1. 思维链(CoT)推理:能够将复杂问题分解为逐步推理过程的能力
  2. 自我验证:检查自身工作并验证结论的能力
  3. 反思:重新考虑初步方法并优化推理路径的能力
  4. 长推理链:在延长序列中保持连贯推理的能力

这些能力是通过强化学习激励自然涌现的,而不是通过监督示例显式教授的。

来源:README.md33-35 README.md51-53

性能与基准测试

DeepSeek-R1-Zero在各种推理基准上表现出色,特别是在数学推理任务上。下表显示了一些选定的性能指标:

基准类别测试得分
数学AIME 2024 (Pass@1)高性能
数学MATH-500 (Pass@1)强劲表现
数学CNMO 2024 (Pass@1)高级能力
推理GPQA-Diamond (Pass@1)竞争性表现
推理DROP (3-shot F1)出色表现

尽管模型通过纯强化学习实现了出色的推理能力,但其后续模型DeepSeek-R1在基准测试中的得分普遍更高。

来源:README.md101-133

挑战与局限性

尽管DeepSeek-R1-Zero拥有强大的推理能力,但它也表现出一些显著的局限性:

  1. 无限重复:模型有时会陷入重复的推理循环
  2. 可读性差:与经过监督训练的模型相比,其输出的结构性较差,不易理解
  3. 语言混杂:模型偶尔会在响应中混合使用不同的语言

这些挑战促成了DeepSeek-R1的开发,它在强化学习之前结合了冷启动数据,以解决这些问题,同时保持了强大的推理能力。

来源:README.md36-37

与其他模型的关联

DeepSeek模型家族层级

DeepSeek-R1-Zero代表了DeepSeek模型家族中一个专注于纯强化学习的独特分支。它的能力和局限性指导了DeepSeek-R1的开发,该模型在强化学习之前结合了冷启动数据,以解决无限重复和可读性差等问题,同时保持了强大的推理能力。

来源:README.md33-39 README.md51-56

使用建议

为获得DeepSeek-R1-Zero的最佳性能,请遵循以下建议:

  1. 温度设置:使用0.6的温度(范围0.5-0.7)以防止无限重复
  2. 用户提示:避免系统提示;将所有指令包含在用户提示中
  3. 数学问题:包含类似“请一步一步推理,并将最终答案放在\boxed{}内”的指令
  4. 思考模式:通过让模型以“<think>\n”开头来强制思考模式

示例提示结构

User: Solve the following problem step by step: 
If 3x + 4y = 10 and 2x - 5y = 7, find the values of x and y.
Please reason step by step, and put your final answer within \boxed{}.