菜单

Web 界面和 API 访问

相关源文件

本文档提供了通过官方 Web 界面和 API 访问和使用 DeepSeek-V3 模型的全面指南。它涵盖了 DeepSeek 提供的官方托管服务以及自托管 API 的各种选项。有关不具备 API 功能的本地部署信息,请参阅 本地部署选项

1. 官方托管服务

DeepSeek 提供两个官方平台,用于与 DeepSeek-V3 模型进行交互。

1.1 聊天网站

官方 DeepSeek 聊天网站允许通过用户友好的 Web 界面与 DeepSeek-V3 模型进行直接交互。

  • URLchat.deepseek.com
  • 特性:
    • 交互式聊天界面
    • 用户账户管理
    • 聊天记录存储
    • 对话管理
    • 访问包括 DeepSeek-V3 在内的各种 DeepSeek 模型

1.2 DeepSeek 平台 API

对于需要程序化访问的开发人员,DeepSeek 通过其平台提供与 OpenAI 兼容的 API。

  • URLplatform.deepseek.com
  • 特性:
    • 与 OpenAI 兼容的 API 端点
    • API 密钥管理
    • 使用情况跟踪和配额
    • 开发者文档

API 兼容性:该 API 设计为与 OpenAI 的 API 格式兼容,允许开发人员轻松地将为 OpenAI 模型构建的现有应用程序迁移到 DeepSeek-V3。

来源:README.md223-225

2. 自托管 API 选项

DeepSeek-V3 可使用各种框架进行自托管,每个框架都提供不同的优化技术和硬件支持选项。

2.1 可用框架

下表总结了每个自托管框架的关键特性。

框架FP8 支持BF16 支持MTP 支持NVIDIA 支持AMD 支持华为昇腾 NPU多节点支持
DeepSeek-Infer 演示
SGLang即将推出
LMDeploy
TensorRT-LLM
vLLM
LightLLM

来源:README.md229-239

2.2 框架选择指南

来源:README.md229-342

3. API 实现细节

下面是 API 实现如何连接到底层 DeepSeek-V3 模型架构的技术概述。

来源:README.md45-54 README.md229-305

4. 设置自托管 API

设置自托管 API 的一般过程包括:

  1. 从 Hugging Face 下载模型权重
  2. 将权重转换为所需格式
  3. 运行适当的推理服务器

4.1 权重转换

由于 DeepSeek-V3 本机使用 FP8 精度,因此某些框架可能需要转换为 BF16。

来源:README.md240-248

4.2 使用 DeepSeek-Infer Demo 设置基本服务器

这是一个基本示例,展示了如何使用 DeepSeek-Infer Demo 设置 DeepSeek-V3 服务器。

  1. 转换权重:
  1. 运行服务器:

来源:README.md284-297

5. 框架特定 API 详细信息

5.1 SGLang

SGLang 为 DeepSeek-V3 提供全面支持,是大多数部署的首选,尤其是在需要 AMD GPU 支持的情况下。

附加功能

  • 用于分布式部署的多节点张量并行
  • 正在开发多 Token 预测 (MTP) 支持

有关详细设置说明,请参阅 SGLang 文档:https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3

来源:README.md307-316

  • LMDeploy:提供灵活的部署选项,兼具离线管道处理和在线服务功能。
  • TensorRT-LLM:提供 BF16 和 INT4/INT8 权重仅量化选项,FP8 支持正在开发中。
  • vLLM:支持分布式部署的张量并行和管道并行。
  • LightLLM:提供单机和多机张量并行部署以及混合精度选项。

来源:README.md318-335

6. 硬件考虑

6.1 NVIDIA GPU

以上所有框架均支持 NVIDIA GPU,这是 DeepSeek-V3 的主要目标硬件。

6.2 AMD GPU

对于 AMD GPU 部署,推荐的选项是:

  • SGLang:完全支持 FP8 和 BF16 精度
  • vLLM:支持 DeepSeek-V3 推理

来源:README.md338-339

6.3 华为昇腾 NPU

华为昇腾社区的 MindIE 框架支持 DeepSeek-V3 的 BF16 版本。

来源:README.md341-342

7. API 用法示例

在使用与 OpenAI 兼容的 API(无论是通过官方平台还是自托管解决方案)时,其界面遵循与其他 LLM API 类似的模式。

7.1 基本补全请求

来源:README.md225-226

8. 故障排除

如果您在 Web 界面或 API 访问方面遇到问题,请考虑以下常见解决方案:

  1. API 速率限制:检查您是否在官方平台上超出了速率限制。
  2. 硬件要求:确保您的硬件满足自托管部署的最低要求。
  3. 权重转换:如果您使用 BF16 精度,请验证权重转换是否成功。
  4. 框架兼容性:确认您选择的框架支持您的特定硬件配置。

如需更多帮助,您可以联系 DeepSeek:service@deepseek.com

来源:README.md359-361