性能基准

性能概览

BitNet.cpp在1位LLM推理方面比标准实现带来了显著的性能提升。这些改进是通过针对不同CPU架构量身定制的专用内核优化实现的。

ARM CPU（TL1内核）：加速比为1.37倍至5.07倍，能耗降低55.4%至70.0%
x86 CPU（TL2内核）：加速比为2.37倍至6.17倍，能耗降低71.9%至82.2%

在更大模型中观察到最显著的性能提升，这表明BitNet.cpp优化具有出色的扩展特性。

按架构划分的性能比较

ARM平台 (Apple M2) 性能

以下数据显示了在Apple M2 ARM处理器上使用TL1优化内核在各种模型尺寸下实现的性能加速

模型大小	每秒令牌数（基线）	每秒令牌数（BitNet.cpp）	加速比	能耗降低
1B	28.7	39.3	1.37倍	55.4%
3B	8.3	20.2	2.43倍	63.7%
7B	3.5	13.7	3.91倍	67.8%
13B	1.9	9.6	5.07倍	70.0%

注：基线测量使用标准矩阵乘法实现，不含查找表优化。

来源：README.md11-14

x86平台 (Intel) 性能

以下数据显示了在Intel x86处理器上使用TL2优化内核在各种模型尺寸下实现的性能加速

模型大小	每秒令牌数（基线）	每秒令牌数（BitNet.cpp）	加速比	能耗降低
1B	19.1	45.3	2.37倍	71.9%
3B	5.6	23.1	4.13倍	77.4%
7B	2.3	12.4	5.39倍	80.3%
13B	1.2	7.4	6.17倍	82.2%

来源：README.md11-14

性能扩展可视化

加速比随模型尺寸扩展

来源：README.md11-14

此图表展示了随着模型尺寸增加，BitNet.cpp优化的扩展效率有所提高。ARM (TL1) 和 x86 (TL2) 平台在更大模型上均显示出更高的加速因子，其中x86在所有模型尺寸上始终实现更高的加速。

基准测试方法

基准测试是使用BitNet仓库中提供的基准测试工具进行的。该方法侧重于衡量文本生成任务的端到端推理性能。

基准测试流程

来源：README.md233-270

使用的硬件配置

基准测试在以下硬件配置上进行

ARM平台:
- Apple M2芯片（8核CPU）
- 8/16GB统一内存
- macOS Ventura 13.4
x86平台:
- Intel Core i9-12900K（16核/24线程）
- 32GB DDR5内存
- Ubuntu 22.04 LTS

来源：README.md11-14

运行您自己的基准测试

BitNet.cpp提供了在您自己的硬件配置上运行基准测试的工具。这使您能够在特定设置和模型组合上评估性能。

使用基准测试脚本

该仓库包含e2e_benchmark.py，用于衡量端到端推理性能

python utils/e2e_benchmark.py -m /path/to/model -n 200 -p 256 -t 4

参数

-m, --model：模型文件路径（必填）
-n, --n-token：要生成的令牌数（默认值：128）
-p, --n-prompt：要处理的提示令牌数（默认值：512）
-t, --threads：要使用的线程数（默认值：2）

来源：README.md233-270

使用虚拟模型进行基准测试

为了测试特定非公开模型配置的性能，BitNet.cpp提供了一个生成虚拟模型的脚本

python utils/generate-dummy-bitnet-model.py models/bitnet_b1_58-large --outfile models/dummy-bitnet-125m.tl1.gguf --outtype tl1 --model-size 125M

生成虚拟模型后，您可以使用上述e2e_benchmark.py脚本对其进行基准测试。

来源：README.md272-279

基准测试的技术实现

来源：README.md233-270

该图表说明了基准测试系统如何使用优化内核（ARM的TL1和x86的TL2）来测量推理过程中的性能（每秒令牌数）和能耗。

性能考量

运行基准测试或优化性能时，请考虑以下因素

模型尺寸：更大模型通过BitNet.cpp优化可显示更显著的加速
线程数：性能通常随线程数增加而提高，最多可达物理核心数
上下文大小：更大的上下文窗口需要更多内存，并可能影响性能
内核选择：ARM处理器使用TL1内核，x86处理器使用TL2内核
量化类型：不同的量化类型（i2_s、tl1、tl2）提供不同的性能特征

来源：README.md11-14 README.md233-270

实际应用

BitNet.cpp使大型语言模型在消费级硬件上的实际应用成为可能

一个100B参数的BitNet b1.58模型可以在单个CPU上以每秒5-7个令牌的速度运行（与人类阅读速度相当）
降低的能耗使BitNet.cpp适用于电池供电和边缘设备
能效提升（55-82%）使得运行大型模型更具可持续性

来源：README.md11

性能基准

性能概览

按架构划分的性能比较

ARM平台 (Apple M2) 性能

x86平台 (Intel) 性能

性能扩展可视化

加速比随模型尺寸扩展

基准测试方法

基准测试流程

使用的硬件配置

运行您自己的基准测试

使用基准测试脚本

使用虚拟模型进行基准测试

基准测试的技术实现

性能考量

实际应用

本页内容