菜单

Llama 3.1

相关源文件

本文档涵盖 Llama 3.1 模型系列,包括其技术规范、架构改进、评估基准和性能特征。Llama 3.1 代表了 Llama 模型系列的一项重大进步,具有扩展的上下文长度、增强的多语言能力和改进的工具调用功能。

有关其他模型版本的信息,请参阅 Llama 3.2Llama 3.3Llama 4。有关通用模型架构详情,请参阅 模型架构。有关评估和测试方法,请参阅 开发与测试

概述与主要特点

Llama 3.1 是一个多语言大型语言模型集合,于2024年7月23日发布,提供三种尺寸:8B、70B 和 405B 参数。这些模型在 Llama 3 的基础上进行了重大演进,具有多项关键增强功能

  • 扩展上下文长度:从 8K 增加到 128K tokens
  • 多语言支持:原生支持英语以外的 8 种语言
  • 增强工具调用:改进了函数调用和 API 集成功能
  • 更大规模:引入了 405B 参数模型
  • 高级训练:使用改进的方法在超过 15 万亿个 token 上进行训练

来源:models/llama3_1/MODEL_CARD.md1-89

模型规格

可用变体

模型参数上下文长度输入模态输出模态GQAToken 计数知识截止日期
Llama 3.1 8B8B128K多语言文本多语言文本和代码15万亿+2023年12月
Llama 3.1 70B70B128K多语言文本多语言文本和代码15万亿+2023年12月
Llama 3.1 405B405B128K多语言文本多语言文本和代码15万亿+2023年12月

支持的语言

Llama 3.1 原生支持以下语言,并设置了安全性和实用性方面的性能阈值

  • 英语(主要)
  • 德语
  • 法语
  • 意大利语
  • 葡萄牙语
  • 印地语
  • 西班牙语
  • 泰语

来源:models/llama3_1/MODEL_CARD.md10-80

训练基础设施与方法

计算要求

Llama 3.1 的训练在各种模型变体中使用了大量的计算资源

模型训练时间 (GPU 小时)功耗 (W)温室气体排放 (吨 CO2当量)
Llama 3.1 8B146万700420
Llama 3.1 70B700万7002,040
Llama 3.1 405B3084万7008,930
总计3930万-11,390

训练数据与方法

  • 预训练数据:来自公共来源的约 15 万亿个 token
  • 数据截止日期:2023 年 12 月
  • 微调数据:公开可用的指令数据集以及 2500万+ 个合成生成示例
  • 训练基础设施:在 Meta 的 GPU 集群上使用 H100-80GB 硬件的自定义训练库
  • 安全对齐:监督微调 (SFT) 和 人类反馈强化学习 (RLHF)

来源:models/llama3_1/MODEL_CARD.md100-188

基准性能

基础模型性能

预训练的 Llama 3.1 模型在各项标准基准测试中表现出显著改进

指令微调模型性能

指令微调变体的关键性能改进

类别基准测试Llama 3.1 8B InstructLlama 3.1 70B InstructLlama 3.1 405B Instruct
通用MMLU (5-shot)69.4%83.6%87.3%
代码HumanEval (0-shot)72.6%80.5%89.0%
数学GSM-8K (CoT)84.5%95.1%96.8%
工具使用API-Bank82.6%90.0%92.0%
工具使用BFCL76.1%84.8%88.5%

多语言能力

指令微调模型在支持语言上的 MMLU 性能

语言8B Instruct70B Instruct405B Instruct
葡萄牙语62.12%80.13%84.95%
西班牙语62.45%80.05%85.08%
意大利语61.63%80.40%85.04%
德语60.59%79.27%84.36%
法语62.34%79.82%84.66%
印地语50.88%74.52%80.31%
泰语50.32%72.95%78.21%

来源:models/llama3_1/MODEL_CARD.md191-880 models/llama3_1/eval_details.md1-194

评估方法

基准配置详情

评估方法确保了模型之间的一致性和最佳评分

关键评估设置

  • MMLU:预训练模型为 5-shot,后训练模型为 5-shot + 0-shot CoT
  • 工具调用:使用开源仓库的伯克利函数调用排行榜 (BFCL)
  • 长上下文:InfiniteBench 具有 131K 上下文,ZeroSCROLLS 具有特定任务限制
  • 多语言:MGSM 在 11 种语言上进行 0-shot CoT 评估
  • 代码:HumanEval 和 MBPP 使用 0-shot pass@1 评分

来源:models/llama3_1/eval_details.md7-194

安全与责任

安全缓解措施

Llama 3.1 包含了全面的安全措施

  • 多方面数据收集:结合人工生成数据和合成数据,以缓解安全风险
  • 基于大型语言模型的分类器:用于提示和响应选择的质量控制
  • 拒绝训练:强调适当的拒绝和语气指南
  • 红队演练:与主题专家定期进行对抗性演练
  • 系统防护:与 Llama Guard 3、Prompt Guard 和 Code Shield 集成

关键风险领域

重点缓解工作包括

  1. CBRNE 材料:化学、生物、放射、核、爆炸物扩散评估
  2. 儿童安全:由专家主导的风险评估,并考虑市场特定因素
  3. 网络攻击赋能:针对黑客能力和攻击自动化进行提升研究
  4. 工具集成:对第三方服务集成需要明确的策略
  5. 多语言安全:对于不支持的语言需要进行微调

来源:models/llama3_1/MODEL_CARD.md884-978

与代码库集成

Llama 3.1 模型通过几个关键组件与更广泛的系统架构集成

  • 模型加载:与 models/datatypes.py 中的标准模型加载基础设施兼容
  • 分词:使用基于 tiktoken 的分词系统以支持多语言
  • 生成:支持具有扩展上下文的 chat_completioncompletion 接口
  • 工具调用:通过结构化提示格式增强了函数调用能力
  • 量化:兼容 FP8 和 INT4 量化方案以进行优化

128K 的上下文长度需要仔细的内存管理,并通过现有生成管道进行支持,并针对更长的序列进行适当配置。

来源:models/llama3_1/MODEL_CARD.md1-978 models/llama3_1/eval_details.md1-194