本文档全面概述了 DeepSeek-V3 的关键特性和功能,重点关注其技术架构、性能特点和部署选项。有关安装和设置说明,请参阅 入门指南,有关详细的架构解释,请参阅 模型架构。
DeepSeek-V3 是一款最先进的混合专家(MoE)语言模型,拥有 6710 亿总参数,在推理时每个 token 激活 370 亿参数。该模型实现了多项先进的架构创新,以同时实现高性能和高效推理。
| 模型 | 总参数 | 激活参数 | 上下文长度 |
|---|---|---|---|
| DeepSeek-V3-Base | 671B | 37B | 128K |
| DeepSeek-V3 (Chat) | 671B | 37B | 128K |
DeepSeek-V3 引入了几项关键的架构创新,使其在保持推理效率的同时实现卓越的性能。
图 1:具有 MLA 和 MoE 组件的 DeepSeek-V3 架构
DeepSeek-V3 在 MoE 模型负载均衡方面开创了无辅助损失的策略。这种方法最大限度地减少了通过辅助损失鼓励专家均衡利用时通常会出现的性能下降。该模型在不依赖可能损害其主要目标的其他训练信号的情况下,实现了有效的专家路由。
来源:README.md65
图 2:多 token 预测(MTP)工作流程
多 token 预测(MTP)训练目标使模型能够同时预测多个未来 token,从而提高模型性能并实现推测性解码以加快推理速度。DeepSeek-V3 在 Hugging Face 上的总大小包括 671B 的主模型权重和另外 14B 的 MTP 模块权重。
来源:README.md66-67 README.md98-99
DeepSeek-V3 在各种基准测试中均表现出卓越的性能,尤其在数学和代码任务方面表现突出。
来源:README.md109-148 README.md166-194 README.md206-215
如“Needle In A Haystack”(NIAH)测试所示,DeepSeek-V3 在高达 128K token 的上下文长度上保持了强大的性能。这使得模型能够有效地处理和理解非常长的文档和对话。
图 3:DeepSeek-V3 训练管道和优化
DeepSeek-V3 通过多项创新实现了卓越的训练效率
来源:README.md72-76 README.md52-54
DeepSeek-V3 可在各种框架和硬件平台上提供灵活的部署选项。
图 4:DeepSeek-V3 推理管道
来源:README.md240-247 README.md287-303
DeepSeek-V3 支持多种部署框架,为不同的用例提供灵活性
| 框架 | FP8 支持 | BF16 支持 | 张量并行 | 流水线并行 | 特殊功能 |
|---|---|---|---|---|---|
| DeepSeek-Infer | ✓ | ✓ | ✓ | ✗ | 轻量级演示 |
| SGLang | ✓ | ✓ | ✓ | ✗ | MLA 优化、DP 注意力、AMD GPU 支持 |
| LMDeploy | ✓ | ✓ | ✓ | ✓ | 云部署选项 |
| TensorRT-LLM | 即将推出 | ✓ | ✓ | ✓ | INT4/8 量化 |
| vLLM | ✓ | ✓ | ✓ | ✓ | 多节点功能 |
| LightLLM | ✓ | ✓ | ✓ | ✓ | 混合精度部署 |
该模型还提供超越 NVIDIA GPU 的硬件兼容性
来源:README.md229-238 README.md306-342
DeepSeek-V3 的权重主要以 FP8 格式提供,并提供了用于 BF16 兼容性的转换工具。
fp8_cast_bf16.py 脚本提供模型权重可从 Hugging Face 下载,并使用提供的转换工具转换为适合各种部署框架的格式。
来源:README.md98-99 README.md240-247 README.md286-289
虽然 DeepSeek-V3 提供了卓越的功能,但用户应注意某些限制