本文档全面介绍了 Llama 模型存储库,涵盖了可用的模型系列、下载和设置过程、核心架构组件以及基本使用模式。该存储库包含 Meta 开源大型语言模型的实现,参数范围从 1B 到 405B,功能涵盖文本生成、多模态处理和工具调用。
有关详细安装说明,请参阅安装和设置。有关特定模型版本及其功能的信息,请参阅模型版本。有关核心数据结构和接口,请参阅核心数据类型。
该存储库围绕多代 Llama 模型构建,每一代都具有独特的功能和架构改进。下表总结了可用的模型系列
| 模型系列 | 发布日期 | 尺寸 | 上下文长度 | 主要功能 |
|---|---|---|---|---|
| Llama 2 | 7/18/2023 | 7B、13B、70B | 4K | Sentencepiece 分词器 |
| Llama 3 | 4/18/2024 | 8B、70B | 8K | 基于 TikToken 的分词器 |
| Llama 3.1 | 7/23/2024 | 8B、70B、405B | 128K | 扩展上下文,函数调用 |
| Llama 3.2 | 9/25/2024 | 1B、3B、11B、90B | 128K | 视觉模型,移动优化 |
| Llama 3.3 | 12/04/2024 | 70B | 128K | 增强的工具调用 |
| Llama 4 | 4/5/2025 | Scout-17B-16E、Maverick-17B-128E | 10M、1M | MoE 架构,多模态 |
来源:README.md25-33 README.md60-74
来源:README.md76-97 README.md62-74
该存储库支持两种主要的模型权重访问方法
pip install llama-stack安装 Llama Stackllama model list或llama model list --show-all查看所有版本llama download --source meta --model-id CHOSEN_MODEL_ID通过Hugging Face Hub进行替代访问,支持 transformers 和原生格式
来源:README.md35-49 README.md103-144
该存储库提供内置的量化支持,以在保持模型精度的同时减少内存需求
| 量化模式 | 内存减少 | 精度权衡 | GPU要求 |
|---|---|---|---|
fp8_mixed | ~50% | 最小精度损失 | 2x 80GB GPU |
int4_mixed | ~75% | 少量精度损失 | 1x 80GB GPU |
| 全精度 | 无 | 无损失 | 4x 80GB GPU |
量化使用示例
该存储库通过 PyPI 以 Python 软件包形式分发
该软件包提供了六个入口点,用于不同的模型交互模式,其中主要执行模式使用torchrun进行多 GPU 分布式推理。
来源:README.md53-58 README.md145-148
该存储库包含全面的安全和合规框架
models/{version}/USE_POLICY.md中models/{version}/LICENSE文件中找到