解码系统

系统概览

解码系统围绕一套模块化、可互换的组件构建，这些组件协同工作以将模型输出转换为文本。核心协调器是DecodingTask类，它协调专用组件之间的交互。

配置选项

解码行为可以通过DecodingOptions数据类进行高度配置

参数	类型	默认	描述
`task`	str	"transcribe"	"transcribe" (X→X) 或 "translate" (X→English)
`language`	Optional[str]	None	语言代码；如果为 None，则使用检测到的语言
`temperature`	浮点数	0.0	控制采样中的随机性（0=确定性）
`beam_size`	Optional[int]	None	用于束搜索的束数
`patience`	Optional[float]	None	束搜索耐心参数
`length_penalty`	Optional[float]	None	控制排序中的长度偏好
`prompt`	Optional[Union[str, List[int]]]	None	用于条件设置的先前上下文
`prefix`	Optional[Union[str, List[int]]]	None	当前上下文的前缀
`suppress_tokens`	Optional[Union[str, Iterable[int]]]	"-1"	生成期间要抑制的令牌
`without_timestamps`	bool	否	禁用时间戳生成
`max_initial_timestamp`	Optional[float]	1.0	约束第一个时间戳

来源：whisper/decoding.py80-115

解码过程

主要的解码工作流由DecodingTask.run()方法管理

来源：whisper/decoding.py713-789

语言检测

语言检测发生在主要解码过程之前

这决定了在初始序列中使用哪个语言令牌，除非在选项中提供了特定语言。

来源：whisper/decoding.py18-77 whisper/decoding.py666-678

解码策略

该系统支持两种主要的解码策略

1. 贪婪解码

使用于temperature=0或未指定束搜索时

来源：whisper/decoding.py272-298

2. 束搜索解码

使用于指定了beam_size时

束搜索维护多个候选序列，跟踪它们的累积对数概率，并使用耐心参数来确定何时停止。

来源：whisper/decoding.py301-404

使用 KV 缓存进行推理

PyTorchInference类处理解码器的有效前向传播

KV 缓存通过以下方式显著提高了解码效率

缓存先前解码步骤的键和值张量
在后续步骤中仅处理最后一个令牌
支持对束搜索进行缓存值的重排

来源：whisper/decoding.py144-177

Logit 过滤

Logit 过滤器按顺序应用以修改输出分布

主要过滤器

SuppressBlank：防止在序列开头生成空白令牌
SuppressTokens：抑制指定的令牌（例如，非语音令牌、特殊令牌）
ApplyTimestampRules：强制执行时间戳生成规则
- 使时间戳成对出现（EOT 之前除外）
- 确保时间戳不递减
- 防止零长度段
- 控制初始时间戳值

来源：whisper/decoding.py407-570

序列排序

MaximumLikelihoodRanker从每个组中选择最佳候选序列

评分方法

简单的长度归一化（除以序列长度）
Google 的神经机器翻译长度惩罚公式（当设置了length_penalty时）

来源：whisper/decoding.py190-213

公共 API

使用解码系统的主要入口点是decode()函数

此函数

创建一个DecodingTask实例，包含模型和选项
处理梅尔频谱图
返回包含以下内容的DecodingResult对象
- 音频特征
- 检测到的语言
- 语言概率（如果已检测到）
- 令牌 ID
- 转录/翻译的文本
- 平均对数概率
- 非语音概率
- 使用的温度
- 压缩比

来源：whisper/decoding.py792-826

整合

解码系统将这些组件结合起来，将梅尔频谱图转换为文本