菜单

概述

相关源文件

本文档提供了 deepseek-ai/DeepSeek-R1 代码库的全面技术概述,该代码库包含一系列专门针对推理能力的大型语言模型。内容涵盖模型架构、训练方法、部署选项和使用指南。

有关特定模型架构的详细信息,请参阅模型架构。有关模型使用说明,请参阅模型使用

模型系列

DeepSeek-R1 是基于 DeepSeek-V3 MoE(混合专家)架构构建的一系列专门针对推理能力优化的语言模型。该系列包含两个大型基础模型和几个蒸馏模型。

模型层级图

来源:README.md67-96

基础模型

  • DeepSeek-R1-Zero:一个拥有 6710 亿参数的 MoE 模型(激活参数 370 亿),通过强化学习训练,未进行有监督微调
  • DeepSeek-R1:一个拥有 6710 亿参数的 MoE 模型(激活参数 370 亿),结合了冷启动数据和强化学习

两个基础模型均支持 128K token 的上下文长度,并基于 DeepSeek-V3 架构。

蒸馏模型

蒸馏模型将 DeepSeek-R1 的推理能力迁移到更小、更高效的架构上

模型基础架构参数
DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B1.5B
DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7B7B
DeepSeek-R1-Distill-Llama-8BLlama-3.1-8B8B
DeepSeek-R1-Distill-Qwen-14BQwen2.5-14B14B
DeepSeek-R1-Distill-Qwen-32BQwen2.5-32B32B
DeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-Instruct70B

来源:README.md82-96

训练方法

DeepSeek-R1 模型采用了与传统语言模型不同的独特训练方法。

训练流程图

来源:README.md31-63

DeepSeek-R1-Zero 方法

DeepSeek-R1-Zero 探索了一种新颖的训练范式,即直接在基础模型上应用强化学习,而不进行有监督微调。这种方法使模型能够发展出涌现的推理能力,包括:

  • 自我验证机制
  • 反思能力
  • 扩展的思维链推理

DeepSeek-R1 方法

DeepSeek-R1 采用了更结构化的流程:

  1. SFT 第一阶段:初始有监督微调,以植入推理能力
  2. SFT 第二阶段:针对非推理能力进行额外微调
  3. RL 第一阶段:强化学习,以发现改进的推理模式
  4. RL 第二阶段:进一步的强化学习,以与人类偏好对齐

这种全面的方法解决了 DeepSeek-R1-Zero 中观察到的局限性,例如重复输出、可读性差和语言混杂。

蒸馏过程

蒸馏过程包括:

  1. 使用 DeepSeek-R1 生成 80 万高质量推理样本
  2. 在这些数据上微调更小的基础模型(Qwen 和 Llama 变体)
  3. 在保持推理能力的同时降低计算需求

来源:README.md60-63

模型访问和部署

DeepSeek-R1 模型可通过多种渠道提供,以适应不同的使用场景。

部署选项图

来源:README.md157-169 README.md170-184

Web和API访问

  • Web界面:可在 chat.deepseek.com 访问,具有“DeepThink”按钮以激活推理能力。
  • API平台:在 platform.deepseek.com 提供兼容 OpenAI 的 API。

本地部署

  • DeepSeek-R1 和 DeepSeek-R1-Zero:可使用 DeepSeek-V3 代码库进行部署。
  • 蒸馏模型:可使用标准框架进行部署,例如:
    • vLLM: vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
    • SGLang: python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

来源:README.md170-184

使用建议

为获得 DeepSeek-R1 模型的最佳性能,请遵循以下技术指南:

  1. 将 temperature 设置在 0.5-0.7 之间(推荐 0.6),以避免重复或输出不连贯。
  2. 避免使用系统提示;将所有指令包含在用户提示中。
  3. 对于数学问题,请包含指令:“请逐步推理,并将您的最终答案放在 \boxed{} 中。”
  4. 为了获得彻底的推理,请强制模型在输出开头加上“<think>\n”。

模型为文件上传和网络搜索功能提供了特定的提示模板,详情请参阅 README。

来源:README.md186-254

性能与基准测试

DeepSeek-R1 模型已在多个领域进行了评估,包括:

  1. 英语基准测试:MMLU、MMLU-Redux、MMLU-Pro、DROP、IF-Eval 等。
  2. 代码生成:LiveCodeBench、Codeforces、SWE Verified 等。
  3. 数学推理:AIME 2024、MATH-500、CNMO 2024。
  4. 中文基准测试:CLUEWSC、C-Eval、C-SimpleQA。

在各种推理任务上,这些模型的性能与 OpenAI-o1 相当,其中蒸馏模型 DeepSeek-R1-Distill-Qwen-32B 的性能优于 OpenAI-o1-mini。

来源:README.md101-153

许可信息

DeepSeek-R1 代码库(包括模型权重)根据 MIT 许可证授权,允许商业用途和衍生作品。蒸馏模型继承了其基础模型的许可条款:

  • 基于 Qwen 的模型:最初根据 Apache 2.0 许可证授权。
  • 基于 Llama 的模型:最初根据 Llama3.1/3.3 许可证授权。

来源:README.md256-262