菜单

蒸馏模型

相关源文件

目的与范围

本文档记录了 DeepSeek-R1 系列中的蒸馏模型变体。这些模型是更小、更高效的版本,保留了完整版 DeepSeek-R1 模型的推理能力。本文档涵盖了蒸馏过程、可用模型变体、性能基准和部署选项。有关父模型的信息,请参阅 DeepSeek-R1-ZeroDeepSeek-R1

蒸馏过程概述

DeepSeek-R1-Distill 模型旨在将大型 671B(激活 37B)参数 DeepSeek-R1 模型的先进推理能力转移到更易于访问的稠密模型中。通过蒸馏过程,小型模型可以获得在这些较小架构上通过直接强化学习难以实现的推理能力。

蒸馏过程包括:

  1. 使用 DeepSeek-R1 生成高质量的推理示例数据集
  2. 在此数据集上对较小的开源基础模型进行微调
  3. 在保持更高效的模型尺寸的同时,保留专门的推理模式

图示:DeepSeek-R1 蒸馏过程

来源:README.md60-63

可用的蒸馏模型

DeepSeek-R1 蒸馏方法已应用于两种主要模型架构:Qwen 和 Llama。这创建了一个具有不同参数大小的模型家族,以适应不同的部署需求和计算约束。

图示:DeepSeek-R1 蒸馏模型家族

下表提供了每个蒸馏模型的详细概述

模型基础模型参数HuggingFace 位置
DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B1.5Bdeepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7B7Bdeepseek-ai/DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Llama-8BLlama-3.1-8B8Bdeepseek-ai/DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Qwen-14BQwen2.5-14B14Bdeepseek-ai/DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-32BQwen2.5-32B32Bdeepseek-ai/DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-Instruct70Bdeepseek-ai/DeepSeek-R1-Distill-Llama-70B

来源:README.md82-96

性能基准

蒸馏模型在各种基准测试中均表现出强大的性能,特别是在数学、解决问题和代码生成等推理密集型任务中。DeepSeek-R1-Distill-Qwen-32B 模型在多个基准测试中的表现尤其优于 OpenAI-o1-mini,为同等规模的稠密模型树立了新的最先进水平。

性能比较

下表展示了蒸馏模型与其他最先进模型相比的基准测试结果

模型AIME 2024 pass@1AIME 2024 cons@64MATH-500 pass@1GPQA Diamond pass@1LiveCodeBench pass@1CodeForces 评分
GPT-4o-05139.313.474.649.932.9759
Claude-3.5-Sonnet-102216.026.778.365.038.9717
o1-mini63.680.090.060.053.81820
QwQ-32B-Preview44.060.090.654.541.91316
DeepSeek-R1-Distill-Qwen-1.5B28.952.783.933.816.9954
DeepSeek-R1-Distill-Qwen-7B55.583.392.849.137.61189
DeepSeek-R1-Distill-Qwen-14B69.780.093.959.153.11481
DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691
DeepSeek-R1-Distill-Llama-8B50.480.089.149.039.61205
DeepSeek-R1-Distill-Llama-70B70.086.794.565.257.51633

基准测试结果的关键观察

  • 即使是最小的 1.5B 模型也表现出强大的推理能力,在特定任务上优于规模大得多的模型
  • 32B Qwen 模型和 70B Llama 模型实现了与 o1-mini 等专有模型相当的性能
  • 性能在每个架构家族内的模型尺寸上有所扩展
  • 模型在数学推理任务(AIME、MATH-500)和代码生成任务方面尤其表现出色

来源:README.md136-153

部署和使用

蒸馏模型设计用于使用标准工具和框架进行轻松部署。与需要专门部署方法的完整 DeepSeek-R1 模型不同,蒸馏模型可以使用 vLLM 和 SGLang 等标准开源工具。

图示:蒸馏模型的部署选项

部署说明

使用 vLLM

使用 SGLang

使用建议

为了获得蒸馏模型的最佳性能,请遵循以下建议:

  1. 将 temperature 设置在 0.5-0.7 范围内(建议 0.6),以防止重复或不连贯的输出
  2. 避免系统提示;将所有指令包含在用户提示中
  3. 对于数学问题,包含类似指令:“请逐步推理,并将最终答案放在 \boxed{} 内”
  4. 通过让模型以“<think>\n”开头响应,可以强制执行思考模式
  5. 对于基准评估,请进行多次测试并平均结果

来源:README.md170-196

许可信息

DeepSeek-R1-Distill 模型根据 MIT 许可证发布,允许商业使用和衍生作品,包括用于训练其他 LLM 的进一步蒸馏。但是,由于这些模型是基于现有的开源模型构建的,用户应了解原始许可证条款。

  • 基于 Qwen 的模型(1.5B、7B、14B、32B):源自 Qwen-2.5 系列,最初根据 Apache 2.0 许可证授权
  • Llama-8B:源自 Llama3.1-8B-Base,最初根据 Llama3.1 许可证授权
  • Llama-70B:源自 Llama3.3-70B-Instruct,最初根据 Llama3.3 许可证授权

虽然 DeepSeek 进行的蒸馏过程和微调受 MIT 许可证涵盖,但在部署这些模型时,用户应遵守原始基础模型的许可条款。

来源:README.md256-261