本文档解释了如何下载 Llama 2 模型权重、可用的模型变体以及下载过程的技术实现。有关下载后如何使用这些模型的信息,请参阅基本使用示例。
Llama 2 有多种大小和类型,每种都需要不同的计算资源
| 模型名称 | 参数 | 类型 | MP 值 | 分片 |
|---|---|---|---|---|
| llama-2-7b | 70 亿 | 基础 | 1 | 1 |
| llama-2-7b-chat | 70 亿 | 对话 | 1 | 1 |
| llama-2-13b | 130 亿 | 基础 | 2 | 2 |
| llama-2-13b-chat | 130 亿 | 对话 | 2 | 2 |
| llama-2-70b | 700 亿 | 基础 | 8 | 8 |
| llama-2-70b-chat | 700 亿 | 对话 | 8 | 8 |
MP 值(模型并行)表示模型推理所需的进程数量,这对应于模型权重被划分为的分片数量。
来源:README.md74-81 download.sh34-52
下载模型前,请确保您已满足以下条件:
wgetmd5sum(或 macOS 上的 md5)download.sh 脚本管理整个下载过程
脚本开始时会提示输入必要信息
如果未选择特定模型,则默认下载所有变体
首先,脚本下载所有模型变体共享的文件
然后,脚本根据用户平台(macOS 或 Linux/其他)使用相应的校验和命令验证分词器的完整性。
对于每个选定的模型变体,脚本将执行以下操作:
确定模型配置:设置分片数量和模型路径
创建模型目录:
下载权重分片:针对模型的每个分片
下载参数和校验和文件:
验证文件完整性:根据用户平台使用相应的校验和命令
每个模型都包含一个 params.json 文件,其中包含关键配置参数,例如:
模型加载代码需要这些参数来正确初始化模型架构。
来源:README.md74-81 README.md89-112
成功下载模型权重后,您可以使用存储库中提供的示例脚本来使用它们
对于基础模型
对于聊天模型
请记住,将 --nproc_per_node 参数设置为与您使用的模型大小的 MP 值匹配(7B 为 1,13B 为 2,70B 为 8)。
有关使用模型的更多信息,请参阅基本使用示例。