快速入门

安装

可以使用 pip 安装 Whisper，这将下载最新的稳定版本

或者，您可以直接从 GitHub 安装最新版本

如果您需要更新到最新版本

依赖项

Whisper 需要几个依赖项

Python：与 Python 3.8-3.11 兼容
PyTorch：用于模型执行
FFmpeg：音频处理必需
Rust：如果 tiktoken 未为您的平台提供预编译的 wheel，则可能需要

安装 FFmpeg

FFmpeg 必须作为系统级依赖项单独安装

潜在的 Rust 要求

如果您遇到与 tiktoken 相关的安装错误，您可能需要安装 Rust

然后确保 Rust 的 bin 目录在您的 PATH 中

Whisper 安装过程

来源：README.md20-55 requirements.txt1-7

可用模型

Whisper 提供几种不同大小的模型，在速度和准确性之间进行了权衡。某些模型提供纯英语版本，这对英语内容效果更好。

大小	参数	仅限英语模型	多语言模型	所需显存	相对速度
tiny	39M	`tiny.en`	`tiny`	~1 GB	~10x
base	74M	`base.en`	`base`	~1 GB	~7x
small	244M	`small.en`	`small`	~2 GB	~4x
medium	769M	`medium.en`	`medium`	~5 GB	~2x
large	1550M	不适用	`large`	~10 GB	1x
turbo	809M	不适用	`turbo`	~6 GB	~8x

.en 模型对英语内容通常表现更好，特别是较小的模型。turbo 模型是 large-v3 的优化版本，可在准确性损失最小的情况下提供更快的转录。

模型选择指南

来源：README.md58-77 whisper/__init__.py17-51

基本用法

命令行界面

使用 Whisper 最简单的方法是通过其命令行界面

来源：README.md82-100

Python API

简单转录

在 Python 中进行基本转录

高级用法

对转录过程进行更多控制

来源：README.md103-141

Whisper 处理流程

此图说明了使用 Whisper 进行转录的标准处理流程

来源：whisper/__init__.py11-15 README.md107-141

核心函数参考

以下是 Whisper API 中关键函数的快速参考

功能	目的	文件位置
`whisper.load_model()`	加载 Whisper 模型	whisper/__init__.py103-160
`whisper.load_audio()`	加载并标准化音频文件	whisper/audio.py
`whisper.pad_or_trim()`	将音频准备到预期长度	whisper/audio.py
`whisper.log_mel_spectrogram()`	为模型输入创建频谱图	whisper/audio.py
`whisper.detect_language()`	识别所说语言	whisper/decoding.py
`whisper.decode()`	低级音频解码	whisper/decoding.py
`model.transcribe()`	高级转录功能	whisper/transcribe.py

来源：whisper/__init__.py11-15 README.md104-140

下一步

在成功设置和使用 Whisper 进行基本转录后，您可能希望

了解如何自定义转录选项 - 请参阅 API 参考
了解模型架构 - 请参阅模型架构
了解音频如何处理 - 请参阅音频处理
了解解码系统 - 请参阅解码系统

有关更详细的使用示例，请参考 OpenAI 提供的 Colab 示例。

来源：README.md6