菜单

基准测试与评估

相关源文件

本文档全面概述了DeepSeek-V3的性能基准和评估结果。它涵盖了在语言理解、推理、代码生成、数学和多语言能力等各种任务上的详细性能指标。有关模型架构和实现细节的信息,请参阅模型架构概述

1. 评估概述

DeepSeek-V3已在多种不同的基准测试中进行了广泛评估,以衡量其在不同领域的各项能力。与其他的开源模型相比,该模型表现出了卓越的性能,并取得了可与领先的闭源模型相媲美的结果。

1.1 模型配置

DeepSeek-V3提供两种配置

模型总参数激活参数上下文长度
DeepSeek-V3-Base6710亿370亿128K
DeepSeek-V3 (Chat)6710亿370亿128K

来源: README.md90-95

1.2 评估方法

用于评估DeepSeek-V3的基准测试包括标准学术基准、上下文窗口评估和开放式生成评估。对于在样本少于1000的基准测试上进行的聊天模型评估,采用了不同温度设置的多项测试,以得出稳健的最终结果。

2. 基础模型评估结果

2.1 标准基准测试

DeepSeek-V3基础模型在多个基准测试类别中取得了最先进的性能,尽管其激活参数少于某些竞争对手(370亿 vs. 高达4050亿),但仍超越了其他开源模型。

图1:模型架构与基准测试类别之间的关系

来源: README.md112-147

2.1.1 英语语言基准测试

DeepSeek-V3基础模型在英语语言基准测试中表现出色,在以下方面取得了最高分数:

  • MMLU:87.1% 准确率 (5-shot)
  • MMLU-Redux:86.2% 准确率 (5-shot)
  • MMLU-Pro:64.4% 准确率 (5-shot)
  • BBH:87.5% 精确匹配 (3-shot)
  • DROP:89.0% F1 分数 (3-shot)
  • ARC-Easy:98.9% 准确率 (25-shot)
  • ARC-Challenge:95.3% 准确率 (25-shot)

来源: README.md117-132

2.1.2 代码基准测试

DeepSeek-V3基础模型在代码相关任务中表现出色,在以下方面优于其他模型:

  • HumanEval:65.2% Pass@1 (0-shot)
  • MBPP:75.4% Pass@1 (3-shot)
  • LiveCodeBench-Base:19.4% Pass@1 (3-shot)
  • CRUXEval-I:67.3% 准确率 (2-shot)
  • CRUXEval-O:69.8% 准确率 (2-shot)

来源: README.md133-137

2.1.3 数学基准测试

该模型在数学推理任务上表现尤为强劲

  • GSM8K:89.3% 精确匹配 (8-shot)
  • MATH:61.6% 精确匹配 (4-shot)
  • MGSM:79.8% 精确匹配 (8-shot)
  • CMath:90.7% 精确匹配 (3-shot)

来源: README.md138-141

2.1.4 中文及多语言基准测试

DeepSeek-V3基础模型在中英文及多语言任务上表现强劲

  • C-Eval:90.1% 准确率 (5-shot)
  • CMMLU:88.8% 准确率 (5-shot)
  • MMMLU-non-English:79.4% 准确率 (5-shot)

来源: README.md142-148

2.2 上下文窗口评估

通过“Needle In A Haystack”(NIAH)测试评估,DeepSeek-V3在长达128K个token的上下文长度下仍保持稳健的性能。

图2:上下文窗口评估工作流程

来源: README.md156-161

3. 聊天模型评估结果

3.1 标准基准测试

DeepSeek-V3聊天模型在标准基准测试上,与开源和领先的闭源模型相比,表现出了有竞争力的性能。

3.1.1 英语基准测试

该聊天模型在英语语言任务上取得了优异的成绩

  • MMLU:88.5% 精确匹配
  • MMLU-Redux:89.1% 精确匹配
  • DROP:91.6% F1 分数 (3-shot)
  • GPQA-Diamond:59.1% Pass@1
  • LongBench v2:48.7% 准确率

来源: README.md167-180

3.1.2 代码基准测试

该聊天模型在代码生成和理解任务上表现出色

  • HumanEval-Mul:82.6% Pass@1
  • LiveCodeBench:40.5% Pass@1 (COT)
  • LiveCodeBench:37.6% Pass@1
  • Codeforces:51.6% 百分位
  • SWE Verified:42.0% Resolved
  • Aider-Polyglot:49.6% 准确率

来源: README.md181-187

3.1.3 数学基准测试

DeepSeek-V3展示了卓越的数学推理能力

  • AIME 2024:39.2% Pass@1
  • MATH-500:90.2% 精确匹配
  • CNMO 2024:43.2% Pass@1

来源: README.md188-190

3.1.4 中文基准测试

该模型在中语任务上表现良好

  • C-Eval:86.5% 精确匹配
  • C-SimpleQA:64.8% Correct
  • CLUEWSC:90.9% 精确匹配

来源: README.md191-193

3.2 开放式生成评估

在开放式生成任务中,DeepSeek-V3超越了开源和闭源模型

  • Arena-Hard:85.5%
  • AlpacaEval 2.0:70.0% (长度控制胜率)

图3:开放式生成评估流程

来源: README.md202-215

4. 性能分析

4.1 比较优势

DeepSeek-V3在以下领域表现出特别的优势:

  1. 数学推理:在数学基准测试中取得了最先进的性能,在AIME和CNMO等高级任务上取得了显著的进步。

  2. 代码生成与理解:在各种基准测试的编程任务中表现出色,优于更大的模型。

  3. 开放式生成:在生成人类偏好的响应方面表现出卓越的能力。

  4. 多语言能力:在中英文基准测试上表现良好,在多语言任务上取得了优异的成绩。

4.2 模型效率

尽管激活参数数量少于某些竞争对手(370亿 vs. 高达4050亿),DeepSeek-V3在大多数基准测试中实现了卓越的性能。这种效率归功于架构创新,包括多头潜在注意力(MLA)、DeepSeekMoE架构和多Token预测。

图4:模型创新与性能之间的关系

来源: README.md45-51 README.md63-67

5. 总结

DeepSeek-V3代表了大型语言模型能力上的重大进步,在各种基准测试中均达到了最先进的性能,同时通过其仅具有370亿激活参数(每token)的混合专家(MoE)架构保持了效率。该模型在数学推理、代码生成和开放式文本生成方面表现尤为突出,与领先的闭源模型相比,其性能具有竞争力。

本文档中呈现的全面评估结果表明DeepSeek-V3在各种自然语言处理任务中具有多功能性和有效性,使其适用于需要先进语言理解和生成能力的各种应用。

来源: README.md55-57 README.md196-199