本页面提供了在您自己的硬件上本地部署 DeepSeek-V3 模型的详细信息。它涵盖了各种部署框架、权重格式注意事项和特定于硬件的配置。有关 Web 界面和 API 访问的信息,请参阅 Web Interface and API Access。
DeepSeek-V3 拥有 671B 的总参数(激活 37B),可以使用几种开源框架在本地基础设施上部署。每个框架都提供不同的优化技术和硬件支持选项,以方便高效的推理。
图示:DeepSeek-V3 部署选项
DeepSeek-V3 原生使用 FP8 精度进行训练,因此 FP8 权重是可用的主要格式。然而,某些部署框架需要 BF16 权重,或者使用 BF16 权重时性能更好。该存储库提供了一个转换工具,可在需要时将 FP8 权重转换为 BF16 格式。
要将 FP8 权重转换为 BF16 格式,请使用提供的转换脚本。
图示:权重转换过程
每个部署框架都有其优点和用例。下表总结了每个框架的关键特性。
| 框架 | 权重格式 | 硬件支持 | 主要功能 | 多节点支持 |
|---|---|---|---|---|
| DeepSeek-Infer 演示 | FP8, BF16 | NVIDIA | 简单、轻量级的演示 | 是 |
| SGLang | FP8, BF16 | NVIDIA, AMD | MLA 优化、DP Attention、FP8 (W8A8)、FP8 KV Cache、Torch Compile | 是 |
| LMDeploy | FP8, BF16 | NVIDIA, 华为 | 灵活部署,高效推理 | 是 |
| TensorRT-LLM | BF16, INT4/8 | NVIDIA | NVIDIA 优化、量化支持 | 是 |
| vLLM | FP8, BF16 | NVIDIA, AMD | 张量并行、流水线并行 | 是 |
| LightLLM | FP8, BF16 | NVIDIA | 高效的单/多节点部署 | 是 |
来源:README.md231-238 README.md307-338
DeepSeek-Infer Demo 提供了一个简单轻量级的实现,用于与 DeepSeek-V3 模型进行推理。
安装:
权重转换:
运行推理:
用于交互模式
用于批量推理
SGLang 目前为 DeepSeek-V3 在开源框架中提供了最优化的性能。它支持多种优化技术,并兼容 NVIDIA 和 AMD GPU。
有关详细的启动说明,请参阅 SGLang 团队的 GitHub 存储库文档。
LMDeploy 为 DeepSeek-V3 等大型语言模型提供了一个灵活且高性能的推理和部署框架。
TensorRT-LLM 提供专门针对 NVIDIA 硬件的优化推理,并支持各种精度选项。
vLLM 为在单机和多机上部署 DeepSeek-V3 提供了高效的并行选项。
LightLLM 为单机和多机场景提供了高效的部署选项。
图示:硬件支持矩阵
NVIDIA GPU 为 DeepSeek-V3 部署提供了最全面的支持,所有部署框架都兼容 NVIDIA 硬件。
来源:README.md231-238 README.md305-335
AMD GPU 可通过 SGLang 和 vLLM 运行 DeepSeek-V3,并支持 FP8 和 BF16 精度。
华为昇腾 NPU 可通过 MindIE 框架运行 DeepSeek-V3,该框架已适配该模型的 BF16 版本。
请遵循华为昇腾社区提供的说明,以获取使用昇腾 NPU 进行部署的分步指导。
为了在多个节点上或以分布式方式部署 DeepSeek-V3,有几个框架提供了特定的并行策略。
图示:分布式部署架构
张量并行将模型的张量分布在多个 GPU 或节点上,从而实现高效的并行计算。这种方法对于 DeepSeek-V3 这样的大型模型尤其有用。
来源:README.md307-316 README.md333-335
流水线并行将模型的层分布在多个设备或节点上,每个设备处理模型层的一部分。
数据并行涉及在不同设备上运行模型的多个副本,每个设备处理不同的输入数据批次。
DeepSeek-V3 提供了多种部署选项,以适应各种硬件配置和性能要求。部署框架的选择取决于可用的具体硬件、性能要求和部署场景。
为获得最佳性能
请记住,权重格式的选择(FP8 vs BF16)可能会影响不同框架的性能和兼容性。