概述

什么是 Llama 2？

Llama 2 是 Meta 开发的一系列大型语言模型，参数规模从 70 亿到 700 亿不等。该存储库提供了对以下内容的访问：

这些模型有三种参数尺寸：

模型大小	参数	模型并行值	上下文长度
小型	7B	1	4096 个词元
中等	13B	2	4096 个词元
大型	70B	8	4096 个词元

70B 模型采用分组查询注意力（Grouped-Query Attention，GQA）以提升推理可扩展性。

Llama 2 存储库由几个关键组件组成，这些组件旨在支持模型加载和推理。

图示：Llama 2 存储库结构

来源：README.md15-96

Llama 2 实现的核心是一个基于 Transformer 的语言模型，其中包含多项针对性能和规模的优化。

图示：Llama 2 架构与数据流

来源：MODEL_CARD.md12-14

使用 Llama 2 模型的典型工作流程包括下载模型权重、初始化模型和运行推理。

图示：Llama 2 推理用户工作流程

来源：README.md27-112

Llama 2 提供两种不同使用模式的模型：

预训练模型:
- 未经对话微调的基础模型
- 应进行提示，使预期答案是提示的自然延续
- 用于一般的文本补全任务
- 通过 text_completion() 函数访问
微调聊天模型:
- 专为对话应用训练
- 需要使用 INST 和 <<SYS>> 标签以及 BOS/EOS 词元进行特定格式化
- 针对助手式交互进行了优化
- 通过 chat_completion() 函数访问
- 包含额外的安全功能

该存储库提供了一个脚本（download.sh），用于在接受许可后获取模型权重。此脚本负责处理模型权重的下载和验证。

模型初始化遵循以下顺序：

图示：模型下载与初始化过程

来源：README.md27-37 README.md42-71