菜单

模型用法

相关源文件

本页面提供了关于如何访问和使用DeepSeek-R1系列模型的全面文档。内容涵盖了各种访问方法、本地部署选项以及优化模型性能的最佳实践。有关模型架构的信息,请参阅模型架构,有关具体的提示指南,请参阅提示指南

可用访问方法

DeepSeek-R1模型可以通过多种渠道访问,每种渠道都针对不同的用例和需求进行了设计。

网页界面

DeepSeek-R1模型可以通过DeepSeek官方网页界面访问,网址为chat.deepseek.com。要使用其推理能力

  1. 访问网站
  2. 启用“DeepThink”按钮以激活推理模式
  3. 与模型开始对话

网页界面使用默认温度0.6,以确保最佳输出质量。

API平台

对于程序化访问,DeepSeek通过其平台platform.deepseek.com提供了一个与OpenAI兼容的API。这使得开发人员可以使用熟悉的API模式将DeepSeek-R1模型集成到他们的应用程序中。

Hugging Face模型

所有DeepSeek-R1模型均在Hugging Face上可用。可以访问以下模型

模型类型模型名称Hugging Face仓库
主模型DeepSeek-R1-Zerodeepseek-ai/DeepSeek-R1-Zero
DeepSeek-R1deepseek-ai/DeepSeek-R1
蒸馏模型DeepSeek-R1-Distill-Qwen-1.5Bdeepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Distill-Qwen-7Bdeepseek-ai/DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Llama-8Bdeepseek-ai/DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Qwen-14Bdeepseek-ai/DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-32Bdeepseek-ai/DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Llama-70Bdeepseek-ai/DeepSeek-R1-Distill-Llama-70B

来源: README.md65-96

本地部署

DeepSeek-R1模型可以本地部署,用于研究、开发或生产用例。部署方法因模型类型而异。

DeepSeek-R1和DeepSeek-R1-Zero

对于大型MoE模型(DeepSeek-R1和DeepSeek-R1-Zero),您需要使用DeepSeek-V3仓库中的自定义实现。由于其混合专家架构,这些模型需要特殊处理。

要运行这些模型

  1. 访问DeepSeek-V3仓库
  2. 遵循适用于MoE模型的安装和设置说明
  3. 使用提供的脚本加载和运行DeepSeek-R1模型

注意: Hugging Face的Transformers库目前尚未直接支持这些模型。

来源: README.md164-169

蒸馏模型

蒸馏模型(基于Qwen和Llama架构)可以使用vLLM或SGLang等标准框架进行部署。这些模型的使用方式与标准的Qwen或Llama模型相同,但具有从DeepSeek-R1蒸馏而来的增强推理能力。

使用 vLLM

使用vLLM部署蒸馏模型

主要参数

  • --tensor-parallel-size:用于张量并行的GPU数量
  • --max-model-len:最大序列长度(推荐32768个token)
  • --enforce-eager:强制执行模式

使用 SGLang

使用SGLang部署蒸馏模型

主要参数

  • --model:模型ID或路径
  • --trust-remote-code:允许执行模型特定代码
  • --tp:用于张量并行的GPU数量

来源: README.md170-184

使用建议

为达到DeepSeek-R1模型最佳性能,请遵循以下推荐实践。

参数设置

  1. 温度:将温度设置在0.5-0.7之间,推荐值为0.6。这可以防止无休止的重复和不连贯的输出,同时保持创造性。

  2. 上下文长度:DeepSeek-R1模型的最大上下文长度为128K token,而蒸馏模型支持其各自架构的上下文长度。

  3. 评估:在对模型进行基准测试时,请进行多次测试运行并平均结果,以获得更可靠的性能指标。

提示词指南

  1. 系统提示:避免使用系统提示。所有指令都应包含在用户提示中。

  2. 数学问题:对于数学问题,请包含一个指令,例如:“请一步一步地推理,并将最终答案放在 \boxed{} 中。”

  3. 思考模式:为确保彻底推理,请强制模型在每次输出的开头都以 <think>\n 开头。此模式有助于模型进行更详细的推理。

来源: README.md186-197

官方特殊用例提示

DeepSeek为特定用例提供了官方提示模板,尤其适用于其网页界面和应用程序中的文件上传和网络搜索功能。

文件上传模板

处理上传文件时,请使用以下模板

[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}

其中

  • {file_name}:已上传文件的名称
  • {file_content}:文件的内容
  • {question}:用户关于该文件的问题

网络搜索模板

对于网络搜索功能,DeepSeek提供了特定语言的模板。两个模板都包含

  • 结构化的搜索结果
  • 引用说明
  • 当前日期信息
  • 响应格式化指南

这些模板旨在帮助模型根据网络搜索结果生成结构良好、引用正确的响应。

来源: README.md198-254

模型特定使用注意事项

DeepSeek-R1系列中的不同模型具有影响其使用的特定特征

模型参数上下文长度最佳用途特殊注意事项
DeepSeek-R1-Zero总共 671B / 激活 37B128K纯推理任务在未正确设置温度的情况下可能会出现重复问题
DeepSeek-R1总共 671B / 激活 37B128K通用推理完整的模型,具有平衡的能力
蒸馏Qwen模型1.5B至32B因模型而异高效部署遵循Qwen模型配置模式
蒸馏Llama模型8B和70B因模型而异高效部署遵循Llama模型配置模式

为实现最准确有效的用法,请考虑

  1. 模型大小与硬件限制
  2. 任务复杂度与模型推理能力
  3. 响应质量与推理速度的权衡

来源: README.md31-39 README.md65-96