本文档提供了关于大型语言模型(LLM)研究和开发的前沿技术的技术概述,这些技术代表了超越标准训练流程的重大进展。它侧重于模型合并、多模态能力、可解释性方法和测试时计算优化。有关监督微调和偏好对齐等标准训练技术的更多信息,请参阅训练流程,有关评估方法,请参阅评估与量化。
模型合并是一种在不进行额外训练的情况下组合两个或多个预训练语言模型的技术,从而创建一个继承了其父模型能力的新模型。与微调不同,合并的计算资源需求极低,这使得硬件有限的研究人员也能使用。
| 技术 | 描述 | 关键属性 |
|---|---|---|
| SLERP | 球面线性插值 | 在权重空间的测地线上执行加权插值 |
| DARE | 差分感知残差合并 | 在减轻冲突的同时保留每个模型的独特能力 |
| TIES | 任务插值与专家切换 | 根据特定能力选择性地组合模型 |
| TASK | 任务算术 | 对模型权重执行代数运算以组合特定能力 |
| TIEs-Merging | 令牌影响的专家切换 | 允许根据输入令牌动态切换专家 |
模型合并可以创建具有互补能力的“弗兰肯模型”(frankenmodels)。例如,将一个专注于推理的模型与一个编码专业化的模型合并,可以得到一个在两项任务上都表现出色的混合模型,其性能通常会超过组件模型的加权平均值。
来源: README.md286-287
多模态LLM可以处理和生成跨不同数据类型的内容——文本、图像、音频和视频。这些模型通常使用专门的编码器处理不同的模态,将输入投影到共享的嵌入空间,从而使模型能够进行跨模态的推理。
| 模型 | 模态 | 架构 | 关键能力 |
|---|---|---|---|
| CLIP | 文本 + 图像 | 双编码器 | 对齐文本和图像嵌入以用于检索和分类 |
| Stable Diffusion | 文本 → 图像 | 编码器-解码器与扩散模型 | 根据文本描述生成图像 |
| LLaVA | 文本 + 图像 → 文本 | 视觉编码器 + LLM | 回答关于图像的问题并生成详细描述 |
| Whisper | 音频 → 文本 | 编码器-解码器 | 转录和翻译多种语言的语音 |
| AudioLDM | 文本 → 音频 | 潜在扩散模型 | 根据文本描述生成声音和音乐 |
多模态模型支持视觉问答、图像字幕、文本到图像生成和跨模态检索等应用。训练这些模型通常需要跨模态的配对数据,例如图像-字幕对或带字幕的视频。
来源: README.md288-289
可解释性研究旨在理解LLM的内部机制,并在不进行传统微调的情况下修改其行为。随着模型复杂性的增加以及在敏感应用中的部署,这些技术变得越来越重要。
稀疏自编码器通过学习模型层内激活模式的稀疏表示,将神经网络激活分解为可解释的特征。这种方法允许研究人员识别编码特定概念或行为的特定神经元。
剥离(Abliteration)是可解释性技术的一个直接应用,它允许在不进行微调的情况下修改模型行为。它通过识别和修改负责特定模式或行为的特定神经元来工作。
可解释性技术除了学术研究之外,还有实际应用,包括
来源: README.md288-289 README.md294-295
测试时计算扩展通过在推理过程中分配额外的计算资源而不是扩展模型大小来提高模型性能。这种方法对于复杂的推理任务尤其有效。
| 技术 | 描述 | 计算权衡 |
|---|---|---|
| 自我一致性 | 生成多个解决方案并进行多数投票 | 与样本数量线性相关 |
| 思维之树 | 在树状结构中探索多个推理路径 | 与树的深度呈指数关系 |
| 过程监督 | 使用单独的模型来评估中间步骤 | 每次评估的额外前向传播 |
| 迭代优化 | 在多个步骤中逐步改进解决方案 | 与迭代次数线性相关 |
测试时计算扩展的关键在于,一个具有额外推理时间计算量的小模型可以在复杂任务上匹配或超越大得多的模型的性能。例如,一个30亿参数的模型,通过适当的测试时扩展,在数学推理任务上的表现可以优于一个700亿参数的模型。
来源: README.md290-297
混合专家(Mixture of Experts)模型代表了模型扩展和专业化之间的一种混合方法。MoE架构使用一个“路由器”来为每个输入动态激活一小部分参数,从而允许拥有更多的总参数量,同时保持合理的计算需求。
最近的一个趋势是将多个独立训练的模型组合成MoE架构,从而创建“弗兰肯MoE”系统。这结合了模型合并和MoE设计的优点,允许自定义组合专业化模型。
| 方法 | 描述 | 实现 |
|---|---|---|
| 直接MoE合并 | 将模型直接合并到MoE架构中 | 使用mergekit进行MoE配置 |
| 路由器训练 | 为现有模型训练一个轻量级的路由器 | 仅微调路由器网络 |
| 隐式MoE | 使用多个模型和一个元模型进行路由 | 外部模型选择架构 |
来源: README.md63
本文档涵盖的新兴趋势使得许多以前无法通过标准LLM方法实现或效果不佳的实际应用成为可能。
| 应用程序 | 核心技术 | 优点 |
|---|---|---|
| 领域特定模型 | 模型合并 + 可解释性 | 在不进行全面重新训练的情况下,创建具有定向功能的专业化模型 |
| 视觉推理系统 | 多模态 + 测试时计算 | 通过迭代探索和推理解决复杂的视觉任务 |
| 定制化助手 | 模型合并 + MoE | 通过组合特定能力构建个性化助手 |
| 安全增强系统 | 可解释性 + 多模态 | 识别和修改跨不同内容类型的有问题行为 |
在实施这些新兴技术时,请考虑
来源: README.md282-297
随着领域的不断发展,在这些趋势的交叉点出现了一些有前途的研究方向
这些新兴趋势代表了LLM研究和开发的尖端领域,有潜力将语言模型的能力和应用扩展到当前限制之外。
来源: README.md282-297