本页面提供了关于如何访问和使用DeepSeek-R1系列模型的全面文档。内容涵盖了各种访问方法、本地部署选项以及优化模型性能的最佳实践。有关模型架构的信息,请参阅模型架构,有关具体的提示指南,请参阅提示指南。
DeepSeek-R1模型可以通过多种渠道访问,每种渠道都针对不同的用例和需求进行了设计。
DeepSeek-R1模型可以通过DeepSeek官方网页界面访问,网址为chat.deepseek.com。要使用其推理能力
网页界面使用默认温度0.6,以确保最佳输出质量。
对于程序化访问,DeepSeek通过其平台platform.deepseek.com提供了一个与OpenAI兼容的API。这使得开发人员可以使用熟悉的API模式将DeepSeek-R1模型集成到他们的应用程序中。
所有DeepSeek-R1模型均在Hugging Face上可用。可以访问以下模型
| 模型类型 | 模型名称 | Hugging Face仓库 |
|---|---|---|
| 主模型 | DeepSeek-R1-Zero | deepseek-ai/DeepSeek-R1-Zero |
| DeepSeek-R1 | deepseek-ai/DeepSeek-R1 | |
| 蒸馏模型 | DeepSeek-R1-Distill-Qwen-1.5B | deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B |
| DeepSeek-R1-Distill-Qwen-7B | deepseek-ai/DeepSeek-R1-Distill-Qwen-7B | |
| DeepSeek-R1-Distill-Llama-8B | deepseek-ai/DeepSeek-R1-Distill-Llama-8B | |
| DeepSeek-R1-Distill-Qwen-14B | deepseek-ai/DeepSeek-R1-Distill-Qwen-14B | |
| DeepSeek-R1-Distill-Qwen-32B | deepseek-ai/DeepSeek-R1-Distill-Qwen-32B | |
| DeepSeek-R1-Distill-Llama-70B | deepseek-ai/DeepSeek-R1-Distill-Llama-70B |
来源: README.md65-96
DeepSeek-R1模型可以本地部署,用于研究、开发或生产用例。部署方法因模型类型而异。
对于大型MoE模型(DeepSeek-R1和DeepSeek-R1-Zero),您需要使用DeepSeek-V3仓库中的自定义实现。由于其混合专家架构,这些模型需要特殊处理。
要运行这些模型
注意: Hugging Face的Transformers库目前尚未直接支持这些模型。
来源: README.md164-169
蒸馏模型(基于Qwen和Llama架构)可以使用vLLM或SGLang等标准框架进行部署。这些模型的使用方式与标准的Qwen或Llama模型相同,但具有从DeepSeek-R1蒸馏而来的增强推理能力。
使用vLLM部署蒸馏模型
主要参数
--tensor-parallel-size:用于张量并行的GPU数量--max-model-len:最大序列长度(推荐32768个token)--enforce-eager:强制执行模式使用SGLang部署蒸馏模型
主要参数
--model:模型ID或路径--trust-remote-code:允许执行模型特定代码--tp:用于张量并行的GPU数量来源: README.md170-184
为达到DeepSeek-R1模型最佳性能,请遵循以下推荐实践。
温度:将温度设置在0.5-0.7之间,推荐值为0.6。这可以防止无休止的重复和不连贯的输出,同时保持创造性。
上下文长度:DeepSeek-R1模型的最大上下文长度为128K token,而蒸馏模型支持其各自架构的上下文长度。
评估:在对模型进行基准测试时,请进行多次测试运行并平均结果,以获得更可靠的性能指标。
系统提示:避免使用系统提示。所有指令都应包含在用户提示中。
数学问题:对于数学问题,请包含一个指令,例如:“请一步一步地推理,并将最终答案放在 \boxed{} 中。”
思考模式:为确保彻底推理,请强制模型在每次输出的开头都以 <think>\n 开头。此模式有助于模型进行更详细的推理。
来源: README.md186-197
DeepSeek为特定用例提供了官方提示模板,尤其适用于其网页界面和应用程序中的文件上传和网络搜索功能。
处理上传文件时,请使用以下模板
[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}
其中
{file_name}:已上传文件的名称{file_content}:文件的内容{question}:用户关于该文件的问题对于网络搜索功能,DeepSeek提供了特定语言的模板。两个模板都包含
这些模板旨在帮助模型根据网络搜索结果生成结构良好、引用正确的响应。
来源: README.md198-254
DeepSeek-R1系列中的不同模型具有影响其使用的特定特征
| 模型 | 参数 | 上下文长度 | 最佳用途 | 特殊注意事项 |
|---|---|---|---|---|
| DeepSeek-R1-Zero | 总共 671B / 激活 37B | 128K | 纯推理任务 | 在未正确设置温度的情况下可能会出现重复问题 |
| DeepSeek-R1 | 总共 671B / 激活 37B | 128K | 通用推理 | 完整的模型,具有平衡的能力 |
| 蒸馏Qwen模型 | 1.5B至32B | 因模型而异 | 高效部署 | 遵循Qwen模型配置模式 |
| 蒸馏Llama模型 | 8B和70B | 因模型而异 | 高效部署 | 遵循Llama模型配置模式 |
为实现最准确有效的用法,请考虑