本文档涵盖了 Llama 4 模型系列,重点介绍其专家混合架构、多模态能力和技术规格。有关通用模型架构概念,请参阅《模型架构》。有关所有模型中使用的量化技术,请参阅《分词与量化》。有关 Llama 4 特定的提示格式,请参阅《提示格式》。
Llama 4 代表了 Meta 最新一代的语言模型,引入了原生多模态和专家混合(MoE)架构。该系列包含两个变体,专为不同的部署场景和性能要求而设计。
Llama 4 模型架构
来源:models/llama4/MODEL_CARD.md1-46
| 规格 | Scout (17Bx16E) | Maverick (17Bx128E) |
|---|---|---|
| 激活参数 | 17B | 17B |
| 总参数 | 109B | 400B |
| 专家数量 | 16 | 128 |
| 上下文长度 | 1000 万 token | 100 万 token |
| 训练 token 数 | 约 40T | 约 22T |
| 输入模态 | 文本, 图像 | 文本, 图像 |
| 输出模态 | 文本, 代码 | 文本, 代码 |
| 知识截止日期 | 2024 年 8 月 | 2024 年 8 月 |
Llama 4 变体对比
来源:models/llama4/MODEL_CARD.md22-46
Llama 4 采用早期融合架构实现原生多模态处理,同时支持文本和图像输入。
Llama 4 多模态处理流程
来源:models/llama4/MODEL_CARD.md9-10 models/llama4/MODEL_CARD.md29-45 models/llama4/MODEL_CARD.md68
| 模型 | BF16 | FP8 | INT4(即时) |
|---|---|---|---|
| Scout | ✓ | ✗ | ✓ |
| Maverick | ✓ | ✓ | ✓ |
Llama 4 部署选项
来源:models/llama4/MODEL_CARD.md312
| 类别 | 基准测试 | Llama 3.1 405B | Scout | Maverick |
|---|---|---|---|---|
| 推理 | MMLU | 85.2 | 79.6 | 85.5 |
| 推理 | MMLU-Pro | 61.6 | 58.2 | 62.9 |
| 数学 | MATH | 53.5 | 50.3 | 61.2 |
| 代码 | MBPP | 74.4 | 67.8 | 77.6 |
| 视觉 | ChartQA | 不适用 | 83.4 | 85.3 |
| 视觉 | DocVQA | 不适用 | 89.4 | 91.6 |
| 类别 | 基准测试 | Llama 3.3 70B | Scout | Maverick |
|---|---|---|---|---|
| 视觉推理 | MMMU | 不适用 | 69.4 | 73.4 |
| 视觉推理 | MathVista | 不适用 | 70.7 | 73.7 |
| 代码 | LiveCodeBench | 33.3 | 32.8 | 43.4 |
| 推理 | MMLU Pro | 68.9 | 74.3 | 80.5 |
| 长文本上下文 | MTOB(半本书) | 不适用 | 42.2/36.6 | 54.0/46.4 |
来源:models/llama4/MODEL_CARD.md98-182 models/llama4/MODEL_CARD.md186-306
Llama 4 训练资源分配
来源:models/llama4/MODEL_CARD.md74-86 models/llama4/MODEL_CARD.md90-92
Llama 4 模型与《模型加载与生成》中描述的现有模型加载基础设施集成。MoE 架构需要对专家路由和稀疏激活模式进行特殊处理。