本文档全面概述了 funNLP 存储库中提供的大型语言模型 (LLM) 资源,包括支持开发人员构建具有 LLM 功能的应用程序的开源模型和框架。本页重点介绍模型本身以及用于处理它们的框架。有关训练和微调这些模型的信息,请参阅LLM 训练和微调。有关提示工程技术,请参阅提示工程。有关评估方法,请参阅LLM 评估和基准测试。
LLM 领域发展迅速,既有闭源商业模型(如 OpenAI 的 GPT 系列),也有日益壮大的开源替代品生态系统。funNLP 存储库跟踪了各种开源 LLM 实现,尤其关注中文能力。
开源 LLM 使强大的语言模型民主化,使研究人员和开发人员无需依赖专有 API 即可构建应用程序。下表总结了 funNLP 存储库中跟踪的关键开源 LLM 模型
| 模型 | 参数 | 语言 | 描述 |
|---|---|---|---|
| LLaMA | 7B、13B、33B、65B | 主要是英语 | Meta 的基础模型,许多衍生模型的基础 |
| ChatGLM | 6B | 中文、英文 | 清华大学 THUDM 开发的双语聊天模型 |
| MOSS | 16B | 中文、英文 | 支持插件的对话语言模型 |
| Chinese-LLaMA | 7B、13B | 中文、英文 | 为中文改编的 LLaMA |
| Alpaca | 7B、13B | 英语 | 斯坦福大学对 LLaMA 的指令调优版本 |
| Chinese-Alpaca | 7B、13B | 中文 | Alpaca 的中文改编版 |
| Vicuna | 7B、13B | 英语 | 微调的 LLaMA,指令遵循能力更强 |
| Baize | 多种 | 中文、英文 | 在自我对话数据上训练的聊天模型 |
| Bloom | 176B | 多语言 | 大型多语言语言模型 |
| Cerebras-GPT | 13B | 英语 | Apache 2.0 许可的语言模型 |
| MPT | 7B | 英语 | MosaicML 的宽松许可模型 |
| Panda | 多种 | 中文 | 对 LLaMA 进行中文领域持续预训练 |
| WizardLM | 7B | 英语 | 具有复杂指令调优的指令遵循模型 |
来源:README.md177-202 README.md142-152
LLaMA 模型系列代表了开源 LLM 的最重要发展之一,为许多衍生模型奠定了基础。
来源:README.md227-231 README.md200-202
funNLP 存储库中的几个模型专门为中文能力设计或改编
| 模型 | 基础 | 特性 |
|---|---|---|
| ChatGLM-6B | GLM | 具有 6B 参数的双语对话模型 |
| MOSS | 原文 | 支持中文、英文和多种插件的开源对话模型 |
| Chinese-LLaMA | LLaMA | 对 LLaMA 进行中文改编,扩展了词汇量 |
| Chinese-Alpaca | LLaMA+Alpaca | 指令调优的中文模型 |
| Panda | LLaMA | 在中文领域进行持续预训练 |
| Chinese-ChatLLaMA | LLaMA | 支持包括简体/繁体中文在内的多语言 |
| LaWGPT | 多种 | 中文法律知识的领域特定模型 |
| MedicalGPT-zh | 多种 | 中文医学知识的领域特定模型 |
来源:README.md181-191 README.md284-285
LLM 生态系统不仅包括模型,还包括便于处理这些模型的框架和工具。
来源:README.md203-206 README.md257-266
几个关键框架构成了使用 LLM 的基础
更高级别的框架,简化了使用 LLM 构建应用程序的过程
| 框架 | 描述 | 主要功能 |
|---|---|---|
| LangChain | 用于创建 LLM 应用程序的框架 | 上下文感知链、工具集成、代理 |
| LlamaIndex | LLM 应用程序的数据框架 | 文档索引、知识检索 |
| 引导 | 现代语言模型的控制系统 | 交错生成、提示和控制 |
| FastChat | 聊天模型的训练和服务系统 | 多模型服务、评估工具 |
在为特定应用程序选择 LLM 模型时,应考虑几个因素
为了在有限的硬件上部署大型语言模型,已经开发了几种技术
这些技术使得在消费级硬件上以合理的性能运行相对较大的模型成为可能。
LLM 的部署通常遵循一定的架构模式,具体取决于用例。
存储库中的几个框架专门针对处理中文语言模型进行了定制
来源:README.md227-231 README.md284-285
funNLP 存储库提供了额外的资源来支持使用 LLM
来源:README.md132-139 README.md327-336
LLM 模型和框架的格局多样且发展迅速。funNLP 存储库跟踪了许多商业模型的开源替代品,特别关注具有中文能力的模型。通过利用这些模型和框架,开发人员可以在各种领域构建复杂的自然语言应用程序。