菜单

概述

相关源文件

本文档全面介绍了 Llama 模型存储库,涵盖了可用的模型系列、下载和设置过程、核心架构组件以及基本使用模式。该存储库包含 Meta 开源大型语言模型的实现,参数范围从 1B 到 405B,功能涵盖文本生成、多模态处理和工具调用。

有关详细安装说明,请参阅安装和设置。有关特定模型版本及其功能的信息,请参阅模型版本。有关核心数据结构和接口,请参阅核心数据类型

存储库结构和模型系列

该存储库围绕多代 Llama 模型构建,每一代都具有独特的功能和架构改进。下表总结了可用的模型系列

模型系列发布日期尺寸上下文长度主要功能
Llama 27/18/20237B、13B、70B4KSentencepiece 分词器
Llama 34/18/20248B、70B8K基于 TikToken 的分词器
Llama 3.17/23/20248B、70B、405B128K扩展上下文,函数调用
Llama 3.29/25/20241B、3B、11B、90B128K视觉模型,移动优化
Llama 3.312/04/202470B128K增强的工具调用
Llama 44/5/2025Scout-17B-16E、Maverick-17B-128E10M、1MMoE 架构,多模态

来源:README.md25-33

高层系统架构

核心系统组件

来源:README.md25-33 README.md60-74

模型执行流程

来源:README.md76-97 README.md62-74

下载和访问方法

该存储库支持两种主要的模型权重访问方法

Meta 官方下载流程

  1. 许可协议:访问Meta Llama 网站并接受许可条款
  2. CLI 安装:通过pip install llama-stack安装 Llama Stack
  3. 模型发现:使用llama model listllama model list --show-all查看所有版本
  4. 下载执行:运行llama download --source meta --model-id CHOSEN_MODEL_ID
  5. URL 认证:在提示时提供已签名的 URL(24 小时后过期)

Hugging Face 集成

通过Hugging Face Hub进行替代访问,支持 transformers 和原生格式

来源:README.md35-49 README.md103-144

量化和内存优化

该存储库提供内置的量化支持,以在保持模型精度的同时减少内存需求

量化模式内存减少精度权衡GPU要求
fp8_mixed~50%最小精度损失2x 80GB GPU
int4_mixed~75%少量精度损失1x 80GB GPU
全精度无损失4x 80GB GPU

量化使用示例

来源:README.md76-97

软件包安装与分发

该存储库通过 PyPI 以 Python 软件包形式分发

该软件包提供了六个入口点,用于不同的模型交互模式,其中主要执行模式使用torchrun进行多 GPU 分布式推理。

来源:README.md53-58 README.md145-148

模型演进和能力时间线

来源:README.md25-33

负责任的使用与合规性

该存储库包含全面的安全和合规框架

  • 负责任使用指南ai.meta.com/static-resource/responsible-use-guide
  • 模型特定使用政策:位于models/{version}/USE_POLICY.md
  • 许可条款:可在models/{version}/LICENSE文件中找到
  • 问题报告:提供多个渠道用于报告错误、风险内容和安全问题

来源:README.md149-165