评估与量化

1. LLM 评估

评估大型语言模型是一项重要但复杂的任务，它指导着数据生成和训练过程。有效的评估提供了需要改进的方面的反馈，可以利用这些反馈来修改数据混合、质量过滤器和训练参数。

1.1 评估方法

来源： README.md248-253

自动化基准测试

自动化基准测试使用经过精心策划的数据集和预定义指标来评估模型在特定任务上的表现

常识：MMLU、AGIEval、GPQA
推理：GSM8K、MATH、BBH
编程：HumanEval、MBPP
安全：ToxiGen、Advbench

优点

可复现的结果
易于进行定量比较
易于大规模运行

局限性

容易受到数据污染的影响
对创造性能力的评估有限
侧重于狭隘的技能

来源： README.md250

人工评估

人工评估涉及人们直接评估模型输出

氛围检查：非正式评估模型响应
结构化标注：使用特定标准进行系统性评分
竞技场比较：社区投票模型（例如，聊天机器人竞技场）

优点

更适合主观质量评估
更全面的评估
检测自动化测试遗漏的细微问题

局限性

成本高且耗时
可复现性较低
可能存在人类偏见

来源： README.md251

基于模型的评估

使用其他模型来评估输出

裁判模型：根据特定标准对输出进行评分
奖励模型：根据学习到的人类偏好对输出进行评分
交叉评估：多个模型相互评估

优点

可扩展且高效
与人类偏好高度相关
可自定义的评估标准

局限性

偏向于自身的输出风格
评分不一致
受评估模型质量的限制

来源： README.md252

1.2 评估工作流程

来源： README.md253

1.3 评估工具和框架

一些框架有助于简化评估过程

框架	描述	用例
EleutherAI 的评估工具包	支持 200 多个任务的综合框架	自动化基准测试
LightEval	具有基于模型的指标的快速评估框架	在有限硬件上进行高效评估
聊天机器人竞技场	LLM 输出的人工比较平台	大规模人工评估
LLM AutoEval	使用 RunPod 进行自动评估	基于云的评估
Ragas	专门用于 RAG 系统评估	检索和生成质量

来源： README.md257-261

2. LLM 量化

量化是将模型参数和激活转换为较低精度格式的过程。这项技术可以减少计算和内存需求，从而使 LLM 能够在消费者硬件上运行，而性能损失极小。

2.1 量化基础

来源： README.md267-268

精度格式

不同的精度格式在模型大小和准确性之间提供了不同的权衡

格式	比特	尺寸缩减	质量影响	典型用例
FP32	32	基线	无	训练，参考
FP16	16	2 倍	可忽略	GPU 推理
BF16	16	2 倍	最小	训练，推理
INT8	8	4 倍	轻微	服务器部署
INT4	4	8 倍	中等	消费级硬件
INT3	3	~10.7 倍	显著	移动设备
INT2	2	16 倍	重大	超轻量级

来源： README.md267-268

2.2 量化方法

来源： README.md269-272

基本量化技术

最简单的量化方法包括

Absmax 量化：按最大绝对值缩放权重
零点量化：添加偏移量以中心化量化范围

这些技术在 8 位量化时效果良好，但在没有额外优化的情况下，在较低的位宽会导致准确性显著下降。

来源： README.md269

高级量化方法

已经开发出几种先进的方法，以在较低精度下实现更好的性能

GGUF & llama.cpp
- 最初为 CPU 推理设计
- 支持各种量化级别（4 位到 8 位）
- 包含词汇表和元数据的独立格式
- 适用于消费者硬件部署
GPTQ & EXL2
- 逐层校准，可保留准确性
- 采用最优脑量化原理
- 减少灾难性异常值
- 在 4 位精度下实现良好性能
AWQ（激活感知权重量化）
- 根据激活模式缩放权重
- 保留每个神经元的重要权重
- 选择性量化参数
SmoothQuant & ZeroQuant
- 在量化前转换模型以处理异常值
- 引入量化友好的操作
- 优化特定硬件的数据流

来源： README.md269-272

2.3 量化工作流程

来源： README.md267-272

2.4 量化工具

该存储库提供了多种量化工具和笔记本

工具	描述	用例
AutoQuant	将 LLM 量化为 GGUF、GPTQ、EXL2、AWQ 和 HQQ 格式	各种格式的一键量化
量化入门	8 位量化原理教程	学习基本的量化概念
使用 GPTQ 进行 4 位量化	使用 GPTQ 算法进行量化的指南	高效的 4 位量化
GGUF 和 llama.cpp	将模型转换为 GGUF 格式	CPU 友好型量化
ExLlamaV2	用于运行 LLM 的快速库	高性能量化推理