新兴趋势

模型合并

模型合并是一种在不进行额外训练的情况下组合两个或多个预训练语言模型的技术，从而创建一个继承了其父模型能力的新模型。与微调不同，合并的计算资源需求极低，这使得硬件有限的研究人员也能使用。

合并技术

技术	描述	关键属性
SLERP	球面线性插值	在权重空间的测地线上执行加权插值
DARE	差分感知残差合并	在减轻冲突的同时保留每个模型的独特能力
TIES	任务插值与专家切换	根据特定能力选择性地组合模型
TASK	任务算术	对模型权重执行代数运算以组合特定能力
TIEs-Merging	令牌影响的专家切换	允许根据输入令牌动态切换专家

合并架构

模型合并可以创建具有互补能力的“弗兰肯模型”（frankenmodels）。例如，将一个专注于推理的模型与一个编码专业化的模型合并，可以得到一个在两项任务上都表现出色的混合模型，其性能通常会超过组件模型的加权平均值。

来源： README.md286-287

多模态模型

多模态LLM可以处理和生成跨不同数据类型的内容——文本、图像、音频和视频。这些模型通常使用专门的编码器处理不同的模态，将输入投影到共享的嵌入空间，从而使模型能够进行跨模态的推理。

多模态架构

常见多模态模型

模型	模态	架构	关键能力
CLIP	文本 + 图像	双编码器	对齐文本和图像嵌入以用于检索和分类
Stable Diffusion	文本 → 图像	编码器-解码器与扩散模型	根据文本描述生成图像
LLaVA	文本 + 图像 → 文本	视觉编码器 + LLM	回答关于图像的问题并生成详细描述
Whisper	音频 → 文本	编码器-解码器	转录和翻译多种语言的语音
AudioLDM	文本 → 音频	潜在扩散模型	根据文本描述生成声音和音乐

多模态模型支持视觉问答、图像字幕、文本到图像生成和跨模态检索等应用。训练这些模型通常需要跨模态的配对数据，例如图像-字幕对或带字幕的视频。

来源： README.md288-289

可解释性技术

可解释性研究旨在理解LLM的内部机制，并在不进行传统微调的情况下修改其行为。随着模型复杂性的增加以及在敏感应用中的部署，这些技术变得越来越重要。

稀疏自编码器（SAEs）

稀疏自编码器通过学习模型层内激活模式的稀疏表示，将神经网络激活分解为可解释的特征。这种方法允许研究人员识别编码特定概念或行为的特定神经元。

剥离技术

剥离（Abliteration）是可解释性技术的一个直接应用，它允许在不进行微调的情况下修改模型行为。它通过识别和修改负责特定模式或行为的特定神经元来工作。

可解释性技术除了学术研究之外，还有实际应用，包括

去除模型响应中的偏见
在不重新训练的情况下引导生成风格
调试有问题的模型行为
去除模型限制（修改安全过滤器）
理解模型内部的推理过程

来源： README.md288-289 README.md294-295

测试时计算扩展

测试时计算扩展通过在推理过程中分配额外的计算资源而不是扩展模型大小来提高模型性能。这种方法对于复杂的推理任务尤其有效。

过程奖励模型（PRM）架构

测试时扩展技术

技术	描述	计算权衡
自我一致性	生成多个解决方案并进行多数投票	与样本数量线性相关
思维之树	在树状结构中探索多个推理路径	与树的深度呈指数关系
过程监督	使用单独的模型来评估中间步骤	每次评估的额外前向传播
迭代优化	在多个步骤中逐步改进解决方案	与迭代次数线性相关

测试时计算扩展的关键在于，一个具有额外推理时间计算量的小模型可以在复杂任务上匹配或超越大得多的模型的性能。例如，一个30亿参数的模型，通过适当的测试时扩展，在数学推理任务上的表现可以优于一个700亿参数的模型。

来源： README.md290-297

专家混合 (MoE)

混合专家（Mixture of Experts）模型代表了模型扩展和专业化之间的一种混合方法。MoE架构使用一个“路由器”来为每个输入动态激活一小部分参数，从而允许拥有更多的总参数量，同时保持合理的计算需求。

弗兰肯MoE创建

最近的一个趋势是将多个独立训练的模型组合成MoE架构，从而创建“弗兰肯MoE”系统。这结合了模型合并和MoE设计的优点，允许自定义组合专业化模型。

方法	描述	实现
直接MoE合并	将模型直接合并到MoE架构中	使用mergekit进行MoE配置
路由器训练	为现有模型训练一个轻量级的路由器	仅微调路由器网络
隐式MoE	使用多个模型和一个元模型进行路由	外部模型选择架构

来源： README.md63

实际应用

本文档涵盖的新兴趋势使得许多以前无法通过标准LLM方法实现或效果不佳的实际应用成为可能。

跨趋势应用

应用程序	核心技术	优点
领域特定模型	模型合并 + 可解释性	在不进行全面重新训练的情况下，创建具有定向功能的专业化模型
视觉推理系统	多模态 + 测试时计算	通过迭代探索和推理解决复杂的视觉任务
定制化助手	模型合并 + MoE	通过组合特定能力构建个性化助手
安全增强系统	可解释性 + 多模态	识别和修改跨不同内容类型的有问题行为

实现考量

在实施这些新兴技术时，请考虑

计算效率：其中许多方法（特别是模型合并和可解释性）被设计为全模型训练的资源高效替代方案
兼容性：并非所有模型都支持所有技术；可能存在特定于架构的限制
评估复杂性：高级功能需要超越标准基准的专门评估方法
迭代开发：这些技术通常受益于顺序优化，而不是一次性应用

来源： README.md282-297

未来研究方向

随着领域的不断发展，在这些趋势的交叉点出现了一些有前途的研究方向

统一表示学习：超越当前多模态方法，学习真正跨模态的集成表示的框架
动态架构适应：根据输入复杂性和类型修改其架构的系统
压缩专业知识：将多个专家的知识提炼成更有效表示的方法
可解释的多模态推理：理解跨不同模态的推理路径
自修改系统：能够根据反馈分析和修改自身内部表示的模型

这些新兴趋势代表了LLM研究和开发的尖端领域，有潜力将语言模型的能力和应用扩展到当前限制之外。