菜单

基本用法

相关源文件

本页提供了使用 Whisper 转录音频的分步指南,涵盖命令行界面 (CLI) 和 Python API 方法。有关安装说明,请参阅安装。有关所有可用函数和参数的完整参考,请参阅API 参考

命令行界面

Whisper 提供了一个命令行工具,可用于快速轻松地转录音频文件。安装后,您就可以直接从终端转录音频文件。

基本转录

转录音频文件的最简单方法是

默认情况下,此命令使用“turbo”模型,该模型在英语转录的速度和准确性之间提供了良好的平衡。

指定模型

要使用不同的模型

可用模型包括:

  • tinytiny.en(最快,准确性最低)
  • basebase.en
  • smallsmall.en
  • mediummedium.en
  • large(最慢,准确性最高)
  • turbo(large-v3 的优化版本,速度更快,准确性相似)

带有 .en 后缀的模型针对英语内容进行了优化。

语言选择

对于非英语音频,请指定语言

翻译成英语

要将语音翻译成英语

输出格式

控制输出格式

可用格式:txtvttsrttsvjsonall(默认)

单词级别的时间戳

有关单词级别的时间信息

通用选项

来源:README.md82-98 whisper/transcribe.py517-623

Python API用法

基本转录

在 Python 中转录音频的最简单方法

这将加载模型并以默认设置转录整个音频文件。

音频处理流程

有关更精细的控制

来源:whisper/__init__.py11-15 README.md104-141

分步示例

有关转录过程更详细的控制

来源:README.md117-141

转录函数

transcribe() 函数提供了一个高级 API,具有许多配置选项

来源:whisper/transcribe.py38-514

转录的关键参数

transcribe() 函数接受许多参数来控制转录过程

参数类型描述
modelWhisperWhisper 模型实例
audiostr/array/tensor音频文件路径或音频数据
languagestr语言代码(如果未指定,则自动检测)
taskstr"transcribe" 或 "translate"(翻译成英语)
temperaturefloat/tuple控制生成过程中的随机性。较高的值(0.0-1.0)会产生更多样化的结果
word_timestampsbool是否生成单词级别的时间戳
initial_promptstr用于条件化模型预测的文本
condition_on_previous_textbool是否使用之前的输出作为下一个片段的上下文
fp16bool是否使用半精度 (FP16) 计算

来源:whisper/transcribe.py38-126

完整的转录工作流程

来源:whisper/transcribe.py38-514 whisper/__init__.py103-160

模型选择指南

模型大小参数最低 VRAM相对速度用例
tiny/tiny.en39M~1 GB~10x快速转录,准确性有限
base/base.en74M~1 GB~7x快速转录,基本准确
small/small.en244M~2 GB~4x对大多数用例平衡良好
medium/medium.en769M~5 GB~2x高准确性,速度合理
large1550M~10 GB1x最高准确性,最慢
turbo809M~6 GB~8x优化的大模型,处理速度更快

来源:README.md58-76