菜单

功能和能力

相关源文件

本文档全面概述了 DeepSeek-V3 的关键特性和功能,重点关注其技术架构、性能特点和部署选项。有关安装和设置说明,请参阅 入门指南,有关详细的架构解释,请参阅 模型架构

1. 模型概述

DeepSeek-V3 是一款最先进的混合专家(MoE)语言模型,拥有 6710 亿总参数,在推理时每个 token 激活 370 亿参数。该模型实现了多项先进的架构创新,以同时实现高性能和高效推理。

1.1 主要架构特性

  • 多头潜在注意力(MLA):为高效推理优化的注意力机制
  • DeepSeekMoE 架构:先进的 MoE 实现,用于更好的参数利用
  • 无辅助损失的负载均衡策略:最小化性能下降,同时确保高效的专家利用
  • 多 token 预测(MTP):新颖的训练目标,可提高模型性能并实现推测性解码
  • 128K 上下文窗口:支持处理极长的上下文

1.2 模型变体和规格

模型总参数激活参数上下文长度
DeepSeek-V3-Base671B37B128K
DeepSeek-V3 (Chat)671B37B128K

来源:README.md87-95

2. 架构创新

DeepSeek-V3 引入了几项关键的架构创新,使其在保持推理效率的同时实现卓越的性能。

2.1 DeepSeekMoE 和 MLA

图 1:具有 MLA 和 MoE 组件的 DeepSeek-V3 架构

来源:README.md62-67

2.2 无辅助损失的负载均衡

DeepSeek-V3 在 MoE 模型负载均衡方面开创了无辅助损失的策略。这种方法最大限度地减少了通过辅助损失鼓励专家均衡利用时通常会出现的性能下降。该模型在不依赖可能损害其主要目标的其他训练信号的情况下,实现了有效的专家路由。

来源:README.md65

2.3 多 token 预测(MTP)

图 2:多 token 预测(MTP)工作流程

多 token 预测(MTP)训练目标使模型能够同时预测多个未来 token,从而提高模型性能并实现推测性解码以加快推理速度。DeepSeek-V3 在 Hugging Face 上的总大小包括 671B 的主模型权重和另外 14B 的 MTP 模块权重。

来源:README.md66-67 README.md98-99

3. 性能特点

3.1 基准测试性能

DeepSeek-V3 在各种基准测试中均表现出卓越的性能,尤其在数学和代码任务方面表现突出。

3.1.1 基础模型性能亮点

  • MMLU:87.1% 准确率(5-shot)
  • MMLU-Pro:64.4% 准确率(5-shot)
  • GSM8K:89.3% 精确匹配(8-shot)
  • MATH:61.6% 精确匹配(4-shot)
  • HumanEval:65.2% pass@1(0-shot)
  • LiveCodeBench-Base:19.4% pass@1(3-shot)

3.1.2 Chat 模型性能亮点

  • AlpacaEval 2.0:70.0% 长度受控胜率
  • Arena-Hard:85.5% 胜率
  • MATH-500:90.2% 精确匹配
  • LiveCodeBench:37.6% pass@1

来源:README.md109-148 README.md166-194 README.md206-215

3.2 上下文窗口能力

如“Needle In A Haystack”(NIAH)测试所示,DeepSeek-V3 在高达 128K token 的上下文长度上保持了强大的性能。这使得模型能够有效地处理和理解非常长的文档和对话。

来源:README.md157-161

3.3 训练效率

图 3:DeepSeek-V3 训练管道和优化

DeepSeek-V3 通过多项创新实现了卓越的训练效率

  • FP8 混合精度训练:首次大规模验证 FP8 训练的有效性
  • 计算-通信重叠:几乎完全重叠,显著提高了训练效率
  • 成本效益的训练:总计 278.8 万 H800 GPU 小时(预训练 266.4 万,后训练 0.1 万)
  • 稳定的训练过程:整个训练过程中没有不可恢复的损失峰值或回滚

来源:README.md72-76 README.md52-54

4. 推理与部署能力

DeepSeek-V3 可在各种框架和硬件平台上提供灵活的部署选项。

4.1 推理管道

图 4:DeepSeek-V3 推理管道

来源:README.md240-247 README.md287-303

4.2 支持的框架和硬件

DeepSeek-V3 支持多种部署框架,为不同的用例提供灵活性

框架FP8 支持BF16 支持张量并行流水线并行特殊功能
DeepSeek-Infer轻量级演示
SGLangMLA 优化、DP 注意力、AMD GPU 支持
LMDeploy云部署选项
TensorRT-LLM即将推出INT4/8 量化
vLLM多节点功能
LightLLM混合精度部署

该模型还提供超越 NVIDIA GPU 的硬件兼容性

  • AMD GPU 支持:通过 SGLang,支持 FP8 和 BF16 精度
  • 华为 Ascend NPU 支持:通过 LMDeploy 和 MindIE 框架

来源:README.md229-238 README.md306-342

5. 权重结构和格式

DeepSeek-V3 的权重主要以 FP8 格式提供,并提供了用于 BF16 兼容性的转换工具。

  • 主要权重格式:FP8(原生训练格式)
  • 转换为 BF16:通过 fp8_cast_bf16.py 脚本提供
  • 总权重大小:685B(671B 主模型 + 14B MTP 模块)

模型权重可从 Hugging Face 下载,并使用提供的转换工具转换为适合各种部署框架的格式。

来源:README.md98-99 README.md240-247 README.md286-289

6. 限制和注意事项

虽然 DeepSeek-V3 提供了卓越的功能,但用户应注意某些限制

  • 硬件要求:推理需要大量的 GPU 资源(完整模型建议最低 16 个 GPU)
  • 框架支持:Hugging Face Transformers 尚未直接支持该模型
  • MTP 支持:多 token 预测支持仍在社区框架中积极开发中
  • 许可注意事项:使用受模型许可的约束,但支持商业使用

来源:README.md250 README.md344-345