菜单

快速入门

相关源文件

本页面提供了设置和使用 Whisper 自动语音识别 (ASR) 系统的全面指南。本文档涵盖了通过命令行和 Python 接口的安装、模型选择和基本用法。有关 Whisper 架构的更详细信息,请参阅 架构

安装

可以使用 pip 安装 Whisper,这将下载最新的稳定版本

或者,您可以直接从 GitHub 安装最新版本

如果您需要更新到最新版本

依赖项

Whisper 需要几个依赖项

  1. Python:与 Python 3.8-3.11 兼容
  2. PyTorch:用于模型执行
  3. FFmpeg:音频处理必需
  4. Rust:如果 tiktoken 未为您的平台提供预编译的 wheel,则可能需要

安装 FFmpeg

FFmpeg 必须作为系统级依赖项单独安装

潜在的 Rust 要求

如果您遇到与 tiktoken 相关的安装错误,您可能需要安装 Rust

然后确保 Rust 的 bin 目录在您的 PATH 中

Whisper 安装过程

来源:README.md20-55 requirements.txt1-7

可用模型

Whisper 提供几种不同大小的模型,在速度和准确性之间进行了权衡。某些模型提供纯英语版本,这对英语内容效果更好。

大小参数仅限英语模型多语言模型所需显存相对速度
tiny39Mtiny.entiny~1 GB~10x
base74Mbase.enbase~1 GB~7x
small244Msmall.ensmall~2 GB~4x
medium769Mmedium.enmedium~5 GB~2x
large1550M不适用large~10 GB1x
turbo809M不适用turbo~6 GB~8x

.en 模型对英语内容通常表现更好,特别是较小的模型。turbo 模型是 large-v3 的优化版本,可在准确性损失最小的情况下提供更快的转录。

模型选择指南

来源:README.md58-77 whisper/__init__.py17-51

基本用法

命令行界面

使用 Whisper 最简单的方法是通过其命令行界面

来源:README.md82-100

Python API

简单转录

在 Python 中进行基本转录

高级用法

对转录过程进行更多控制

来源:README.md103-141

Whisper 处理流程

此图说明了使用 Whisper 进行转录的标准处理流程

来源:whisper/__init__.py11-15 README.md107-141

核心函数参考

以下是 Whisper API 中关键函数的快速参考

功能目的文件位置
whisper.load_model()加载 Whisper 模型whisper/__init__.py103-160
whisper.load_audio()加载并标准化音频文件whisper/audio.py
whisper.pad_or_trim()将音频准备到预期长度whisper/audio.py
whisper.log_mel_spectrogram()为模型输入创建频谱图whisper/audio.py
whisper.detect_language()识别所说语言whisper/decoding.py
whisper.decode()低级音频解码whisper/decoding.py
model.transcribe()高级转录功能whisper/transcribe.py

来源:whisper/__init__.py11-15 README.md104-140

下一步

在成功设置和使用 Whisper 进行基本转录后,您可能希望

  1. 了解如何自定义转录选项 - 请参阅 API 参考
  2. 了解模型架构 - 请参阅 模型架构
  3. 了解音频如何处理 - 请参阅 音频处理
  4. 了解解码系统 - 请参阅 解码系统

有关更详细的使用示例,请参考 OpenAI 提供的 Colab 示例

来源:README.md6