下载模型

可用模型变体

Llama 2 有多种大小和类型，每种都需要不同的计算资源

模型名称	参数	类型	MP 值	分片
llama-2-7b	70 亿	基础	1	1
llama-2-7b-chat	70 亿	对话	1	1
llama-2-13b	130 亿	基础	2	2
llama-2-13b-chat	130 亿	对话	2	2
llama-2-70b	700 亿	基础	8	8
llama-2-70b-chat	700 亿	对话	8	8

MP 值（模型并行）表示模型推理所需的进程数量，这对应于模型权重被划分为的分片数量。

来源：README.md74-81 download.sh34-52

先决条件

下载模型前，请确保您已满足以下条件：

通过 Meta 网站申请了访问权限
收到一封包含预签名 URL（24 小时内有效）的电子邮件
安装了所需的命令行工具
- 用于下载文件的 wget
- 用于验证文件完整性的 md5sum（或 macOS 上的 md5）

来源：README.md28-35

下载过程概述

图示：模型下载流程

来源：download.sh1-71

技术实现

download.sh 脚本管理整个下载过程

用户输入与配置

脚本开始时会提示输入必要信息

如果未选择特定模型，则默认下载所有变体

来源：download.sh8-16

通用文件下载

首先，脚本下载所有模型变体共享的文件

然后，脚本根据用户平台（macOS 或 Linux/其他）使用相应的校验和命令验证分词器的完整性。

来源：download.sh18-30

模型特定下载

对于每个选定的模型变体，脚本将执行以下操作：

确定模型配置：设置分片数量和模型路径
创建模型目录:
下载权重分片：针对模型的每个分片
下载参数和校验和文件:
验证文件完整性：根据用户平台使用相应的校验和命令

来源：download.sh32-71

生成的文件结构

图示：Llama 2 下载后的文件组织

来源：download.sh11-71

模型参数文件

每个模型都包含一个 params.json 文件，其中包含关键配置参数，例如：

维度大小
层数
注意力头的数量
词汇表大小
其他架构特定参数

模型加载代码需要这些参数来正确初始化模型架构。

与推理过程的关系

图示：从模型下载到推理

来源：README.md74-81 README.md89-112

下一步

成功下载模型权重后，您可以使用存储库中提供的示例脚本来使用它们

对于基础模型
对于聊天模型

请记住，将 --nproc_per_node 参数设置为与您使用的模型大小的 MP 值匹配（7B 为 1，13B 为 2，70B 为 8）。

有关使用模型的更多信息，请参阅基本使用示例。

来源：README.md89-112