本文档记录了 DeepSeek-R1 系列中的蒸馏模型变体。这些模型是更小、更高效的版本,保留了完整版 DeepSeek-R1 模型的推理能力。本文档涵盖了蒸馏过程、可用模型变体、性能基准和部署选项。有关父模型的信息,请参阅 DeepSeek-R1-Zero 和 DeepSeek-R1。
DeepSeek-R1-Distill 模型旨在将大型 671B(激活 37B)参数 DeepSeek-R1 模型的先进推理能力转移到更易于访问的稠密模型中。通过蒸馏过程,小型模型可以获得在这些较小架构上通过直接强化学习难以实现的推理能力。
蒸馏过程包括:
图示:DeepSeek-R1 蒸馏过程
DeepSeek-R1 蒸馏方法已应用于两种主要模型架构:Qwen 和 Llama。这创建了一个具有不同参数大小的模型家族,以适应不同的部署需求和计算约束。
图示:DeepSeek-R1 蒸馏模型家族
下表提供了每个蒸馏模型的详细概述
| 模型 | 基础模型 | 参数 | HuggingFace 位置 |
|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | 1.5B | deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B |
| DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | 7B | deepseek-ai/DeepSeek-R1-Distill-Qwen-7B |
| DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | 8B | deepseek-ai/DeepSeek-R1-Distill-Llama-8B |
| DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | 14B | deepseek-ai/DeepSeek-R1-Distill-Qwen-14B |
| DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | 32B | deepseek-ai/DeepSeek-R1-Distill-Qwen-32B |
| DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | 70B | deepseek-ai/DeepSeek-R1-Distill-Llama-70B |
蒸馏模型在各种基准测试中均表现出强大的性能,特别是在数学、解决问题和代码生成等推理密集型任务中。DeepSeek-R1-Distill-Qwen-32B 模型在多个基准测试中的表现尤其优于 OpenAI-o1-mini,为同等规模的稠密模型树立了新的最先进水平。
下表展示了蒸馏模型与其他最先进模型相比的基准测试结果
| 模型 | AIME 2024 pass@1 | AIME 2024 cons@64 | MATH-500 pass@1 | GPQA Diamond pass@1 | LiveCodeBench pass@1 | CodeForces 评分 |
|---|---|---|---|---|---|---|
| GPT-4o-0513 | 9.3 | 13.4 | 74.6 | 49.9 | 32.9 | 759 |
| Claude-3.5-Sonnet-1022 | 16.0 | 26.7 | 78.3 | 65.0 | 38.9 | 717 |
| o1-mini | 63.6 | 80.0 | 90.0 | 60.0 | 53.8 | 1820 |
| QwQ-32B-Preview | 44.0 | 60.0 | 90.6 | 54.5 | 41.9 | 1316 |
| DeepSeek-R1-Distill-Qwen-1.5B | 28.9 | 52.7 | 83.9 | 33.8 | 16.9 | 954 |
| DeepSeek-R1-Distill-Qwen-7B | 55.5 | 83.3 | 92.8 | 49.1 | 37.6 | 1189 |
| DeepSeek-R1-Distill-Qwen-14B | 69.7 | 80.0 | 93.9 | 59.1 | 53.1 | 1481 |
| DeepSeek-R1-Distill-Qwen-32B | 72.6 | 83.3 | 94.3 | 62.1 | 57.2 | 1691 |
| DeepSeek-R1-Distill-Llama-8B | 50.4 | 80.0 | 89.1 | 49.0 | 39.6 | 1205 |
| DeepSeek-R1-Distill-Llama-70B | 70.0 | 86.7 | 94.5 | 65.2 | 57.5 | 1633 |
基准测试结果的关键观察
蒸馏模型设计用于使用标准工具和框架进行轻松部署。与需要专门部署方法的完整 DeepSeek-R1 模型不同,蒸馏模型可以使用 vLLM 和 SGLang 等标准开源工具。
图示:蒸馏模型的部署选项
为了获得蒸馏模型的最佳性能,请遵循以下建议:
DeepSeek-R1-Distill 模型根据 MIT 许可证发布,允许商业使用和衍生作品,包括用于训练其他 LLM 的进一步蒸馏。但是,由于这些模型是基于现有的开源模型构建的,用户应了解原始许可证条款。
虽然 DeepSeek 进行的蒸馏过程和微调受 MIT 许可证涵盖,但在部署这些模型时,用户应遵守原始基础模型的许可条款。