本页面提供了设置和使用 Whisper 自动语音识别 (ASR) 系统的全面指南。本文档涵盖了通过命令行和 Python 接口的安装、模型选择和基本用法。有关 Whisper 架构的更详细信息,请参阅 架构。
可以使用 pip 安装 Whisper,这将下载最新的稳定版本
或者,您可以直接从 GitHub 安装最新版本
如果您需要更新到最新版本
Whisper 需要几个依赖项
FFmpeg 必须作为系统级依赖项单独安装
如果您遇到与 tiktoken 相关的安装错误,您可能需要安装 Rust
然后确保 Rust 的 bin 目录在您的 PATH 中
来源:README.md20-55 requirements.txt1-7
Whisper 提供几种不同大小的模型,在速度和准确性之间进行了权衡。某些模型提供纯英语版本,这对英语内容效果更好。
| 大小 | 参数 | 仅限英语模型 | 多语言模型 | 所需显存 | 相对速度 |
|---|---|---|---|---|---|
| tiny | 39M | tiny.en | tiny | ~1 GB | ~10x |
| base | 74M | base.en | base | ~1 GB | ~7x |
| small | 244M | small.en | small | ~2 GB | ~4x |
| medium | 769M | medium.en | medium | ~5 GB | ~2x |
| large | 1550M | 不适用 | large | ~10 GB | 1x |
| turbo | 809M | 不适用 | turbo | ~6 GB | ~8x |
.en 模型对英语内容通常表现更好,特别是较小的模型。turbo 模型是 large-v3 的优化版本,可在准确性损失最小的情况下提供更快的转录。
来源:README.md58-77 whisper/__init__.py17-51
使用 Whisper 最简单的方法是通过其命令行界面
在 Python 中进行基本转录
对转录过程进行更多控制
此图说明了使用 Whisper 进行转录的标准处理流程
来源:whisper/__init__.py11-15 README.md107-141
以下是 Whisper API 中关键函数的快速参考
| 功能 | 目的 | 文件位置 |
|---|---|---|
whisper.load_model() | 加载 Whisper 模型 | whisper/__init__.py103-160 |
whisper.load_audio() | 加载并标准化音频文件 | whisper/audio.py |
whisper.pad_or_trim() | 将音频准备到预期长度 | whisper/audio.py |
whisper.log_mel_spectrogram() | 为模型输入创建频谱图 | whisper/audio.py |
whisper.detect_language() | 识别所说语言 | whisper/decoding.py |
whisper.decode() | 低级音频解码 | whisper/decoding.py |
model.transcribe() | 高级转录功能 | whisper/transcribe.py |
来源:whisper/__init__.py11-15 README.md104-140
在成功设置和使用 Whisper 进行基本转录后,您可能希望
有关更详细的使用示例,请参考 OpenAI 提供的 Colab 示例。
来源:README.md6
刷新此 Wiki
最后索引时间2025 年 4 月 18 日(517a43)