菜单

Llama 4

相关源文件

本文档涵盖了 Llama 4 模型系列,重点介绍其专家混合架构、多模态能力和技术规格。有关通用模型架构概念,请参阅《模型架构》。有关所有模型中使用的量化技术,请参阅《分词与量化》。有关 Llama 4 特定的提示格式,请参阅《提示格式》

模型概述

Llama 4 代表了 Meta 最新一代的语言模型,引入了原生多模态和专家混合(MoE)架构。该系列包含两个变体,专为不同的部署场景和性能要求而设计。

Llama 4 模型架构

来源:models/llama4/MODEL_CARD.md1-46

模型变体

技术规格

规格Scout (17Bx16E)Maverick (17Bx128E)
激活参数17B17B
总参数109B400B
专家数量16128
上下文长度1000 万 token100 万 token
训练 token 数约 40T约 22T
输入模态文本, 图像文本, 图像
输出模态文本, 代码文本, 代码
知识截止日期2024 年 8 月2024 年 8 月

架构差异

Llama 4 变体对比

来源:models/llama4/MODEL_CARD.md22-46

多模态能力

Llama 4 采用早期融合架构实现原生多模态处理,同时支持文本和图像输入。

支持的输入类型

  • 文本:支持 12 种语言的多语言(阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语、越南语)
  • 图像:每个请求最多支持 5 张输入图像,支持 JPEG、PNG 格式
  • 代码:多语言代码理解与生成

处理管道

Llama 4 多模态处理流程

来源:models/llama4/MODEL_CARD.md9-10 models/llama4/MODEL_CARD.md29-45 models/llama4/MODEL_CARD.md68

量化与部署

可用权重格式

模型BF16FP8INT4(即时)
Scout
Maverick

硬件要求

Llama 4 部署选项

来源:models/llama4/MODEL_CARD.md312

性能基准

预训练模型性能

类别基准测试Llama 3.1 405BScoutMaverick
推理MMLU85.279.685.5
推理MMLU-Pro61.658.262.9
数学MATH53.550.361.2
代码MBPP74.467.877.6
视觉ChartQA不适用83.485.3
视觉DocVQA不适用89.491.6

指令微调模型性能

类别基准测试Llama 3.3 70BScoutMaverick
视觉推理MMMU不适用69.473.4
视觉推理MathVista不适用70.773.7
代码LiveCodeBench33.332.843.4
推理MMLU Pro68.974.380.5
长文本上下文MTOB(半本书)不适用42.2/36.654.0/46.4

来源:models/llama4/MODEL_CARD.md98-182 models/llama4/MODEL_CARD.md186-306

训练与资源要求

训练基础设施

Llama 4 训练资源分配

来源:models/llama4/MODEL_CARD.md74-86 models/llama4/MODEL_CARD.md90-92

与模型加载系统的集成

Llama 4 模型与《模型加载与生成》中描述的现有模型加载基础设施集成。MoE 架构需要对专家路由和稀疏激活模式进行特殊处理。

关键集成点

来源:models/llama4/MODEL_CARD.md1-409