本文档涵盖 Llama 3.1 模型系列,包括其技术规范、架构改进、评估基准和性能特征。Llama 3.1 代表了 Llama 模型系列的一项重大进步,具有扩展的上下文长度、增强的多语言能力和改进的工具调用功能。
有关其他模型版本的信息,请参阅 Llama 3.2、Llama 3.3 和 Llama 4。有关通用模型架构详情,请参阅 模型架构。有关评估和测试方法,请参阅 开发与测试。
Llama 3.1 是一个多语言大型语言模型集合,于2024年7月23日发布,提供三种尺寸:8B、70B 和 405B 参数。这些模型在 Llama 3 的基础上进行了重大演进,具有多项关键增强功能
来源:models/llama3_1/MODEL_CARD.md1-89
| 模型 | 参数 | 上下文长度 | 输入模态 | 输出模态 | GQA | Token 计数 | 知识截止日期 |
|---|---|---|---|---|---|---|---|
| Llama 3.1 8B | 8B | 128K | 多语言文本 | 多语言文本和代码 | 是 | 15万亿+ | 2023年12月 |
| Llama 3.1 70B | 70B | 128K | 多语言文本 | 多语言文本和代码 | 是 | 15万亿+ | 2023年12月 |
| Llama 3.1 405B | 405B | 128K | 多语言文本 | 多语言文本和代码 | 是 | 15万亿+ | 2023年12月 |
Llama 3.1 原生支持以下语言,并设置了安全性和实用性方面的性能阈值
来源:models/llama3_1/MODEL_CARD.md10-80
Llama 3.1 的训练在各种模型变体中使用了大量的计算资源
| 模型 | 训练时间 (GPU 小时) | 功耗 (W) | 温室气体排放 (吨 CO2当量) |
|---|---|---|---|
| Llama 3.1 8B | 146万 | 700 | 420 |
| Llama 3.1 70B | 700万 | 700 | 2,040 |
| Llama 3.1 405B | 3084万 | 700 | 8,930 |
| 总计 | 3930万 | - | 11,390 |
来源:models/llama3_1/MODEL_CARD.md100-188
预训练的 Llama 3.1 模型在各项标准基准测试中表现出显著改进
指令微调变体的关键性能改进
| 类别 | 基准测试 | Llama 3.1 8B Instruct | Llama 3.1 70B Instruct | Llama 3.1 405B Instruct |
|---|---|---|---|---|
| 通用 | MMLU (5-shot) | 69.4% | 83.6% | 87.3% |
| 代码 | HumanEval (0-shot) | 72.6% | 80.5% | 89.0% |
| 数学 | GSM-8K (CoT) | 84.5% | 95.1% | 96.8% |
| 工具使用 | API-Bank | 82.6% | 90.0% | 92.0% |
| 工具使用 | BFCL | 76.1% | 84.8% | 88.5% |
指令微调模型在支持语言上的 MMLU 性能
| 语言 | 8B Instruct | 70B Instruct | 405B Instruct |
|---|---|---|---|
| 葡萄牙语 | 62.12% | 80.13% | 84.95% |
| 西班牙语 | 62.45% | 80.05% | 85.08% |
| 意大利语 | 61.63% | 80.40% | 85.04% |
| 德语 | 60.59% | 79.27% | 84.36% |
| 法语 | 62.34% | 79.82% | 84.66% |
| 印地语 | 50.88% | 74.52% | 80.31% |
| 泰语 | 50.32% | 72.95% | 78.21% |
来源:models/llama3_1/MODEL_CARD.md191-880 models/llama3_1/eval_details.md1-194
评估方法确保了模型之间的一致性和最佳评分
来源:models/llama3_1/eval_details.md7-194
Llama 3.1 包含了全面的安全措施
重点缓解工作包括
来源:models/llama3_1/MODEL_CARD.md884-978
Llama 3.1 模型通过几个关键组件与更广泛的系统架构集成
chat_completion 和 completion 接口128K 的上下文长度需要仔细的内存管理,并通过现有生成管道进行支持,并针对更长的序列进行适当配置。
来源:models/llama3_1/MODEL_CARD.md1-978 models/llama3_1/eval_details.md1-194