在 Devin 中试用 DeepWiki 处理私有仓库

meta-llama/llama-models

在 DeepWiki 中试用私有仓库

最后索引时间2025年6月5日(01dc8c)

菜单

概述

相关源文件

README.md

本文档全面介绍了 Llama 模型存储库，涵盖了可用的模型系列、下载和设置过程、核心架构组件以及基本使用模式。该存储库包含 Meta 开源大型语言模型的实现，参数范围从 1B 到 405B，功能涵盖文本生成、多模态处理和工具调用。

有关详细安装说明，请参阅安装和设置。有关特定模型版本及其功能的信息，请参阅模型版本。有关核心数据结构和接口，请参阅核心数据类型。

存储库结构和模型系列

该存储库围绕多代 Llama 模型构建，每一代都具有独特的功能和架构改进。下表总结了可用的模型系列

模型系列	发布日期	尺寸	上下文长度	主要功能
Llama 2	7/18/2023	7B、13B、70B	4K	Sentencepiece 分词器
Llama 3	4/18/2024	8B、70B	8K	基于 TikToken 的分词器
Llama 3.1	7/23/2024	8B、70B、405B	128K	扩展上下文，函数调用
Llama 3.2	9/25/2024	1B、3B、11B、90B	128K	视觉模型，移动优化
Llama 3.3	12/04/2024	70B	128K	增强的工具调用
Llama 4	4/5/2025	Scout-17B-16E、Maverick-17B-128E	10M、1M	MoE 架构，多模态

来源：README.md25-33

高层系统架构

核心系统组件

来源：README.md25-33 README.md60-74

模型执行流程

来源：README.md76-97 README.md62-74

下载和访问方法

该存储库支持两种主要的模型权重访问方法

Meta 官方下载流程

许可协议：访问Meta Llama 网站并接受许可条款
CLI 安装：通过pip install llama-stack安装 Llama Stack
模型发现：使用llama model list或llama model list --show-all查看所有版本
下载执行：运行llama download --source meta --model-id CHOSEN_MODEL_ID
URL 认证：在提示时提供已签名的 URL（24 小时后过期）

Hugging Face 集成

通过Hugging Face Hub进行替代访问，支持 transformers 和原生格式

来源：README.md35-49 README.md103-144

量化和内存优化

该存储库提供内置的量化支持，以在保持模型精度的同时减少内存需求

量化模式	内存减少	精度权衡	GPU要求
`fp8_mixed`	~50%	最小精度损失	2x 80GB GPU
`int4_mixed`	~75%	少量精度损失	1x 80GB GPU
全精度	无	无损失	4x 80GB GPU

量化使用示例

来源：README.md76-97

软件包安装与分发

该存储库通过 PyPI 以 Python 软件包形式分发

该软件包提供了六个入口点，用于不同的模型交互模式，其中主要执行模式使用torchrun进行多 GPU 分布式推理。

来源：README.md53-58 README.md145-148

模型演进和能力时间线

来源：README.md25-33

负责任的使用与合规性

该存储库包含全面的安全和合规框架

负责任使用指南：ai.meta.com/static-resource/responsible-use-guide
模型特定使用政策：位于models/{version}/USE_POLICY.md中
许可条款：可在models/{version}/LICENSE文件中找到
问题报告：提供多个渠道用于报告错误、风险内容和安全问题

来源：README.md149-165

刷新此 Wiki

最后索引时间2025年6月5日(01dc8c)

此 Wiki 最近已刷新。请等待 2天s才能再次刷新。

本页内容

概述
存储库结构和模型系列
高层系统架构
核心系统组件
模型执行流程
下载和访问方法
Meta 官方下载流程
Hugging Face 集成
量化和内存优化
软件包安装与分发
模型演进和能力时间线
负责任的使用与合规性