Whisper下载指南：轻松获取的有效方法

1942920 ⋅ 2025-05-03 ⋅ 12 阅读 ⋅ 电脑软件

Whisper是一款由OpenAI开发的开源免费离线语音识别软件，支持99种语言的自动语音识别和翻译任务。本文将从功能、特色、同类软件对比、使用说明、安装步骤和相关应用等方面进行详细介绍。

一、软件功能

语音识别：将各种语言的语音转换成文本，支持99种语言。

语音翻译：将语音内容翻译成英文文本，目前仅支持英文翻译。

语言识别：自动检测音频中使用的语言，无需用户手动指定。

多模型支持：提供从tiny到large不同大小的模型，用户可根据需求和硬件条件选择。

二、软件特色

Whisper下载指南：轻松获取的有效方法

开源免费：作为开源项目，可自由使用和修改，促进了在各种应用场景中的推广。

离线使用：能够在本地运行，无需联网，充分保障个人隐私。

多语言支持：支持99种语言的语音识别和翻译，在跨语言交流和国际化应用中有巨大潜力。

高性能：在某些语言上的性能甚至可与人工转录相媲美，例如英语语音识别任务中单词错误率（WER）可低至1

2%。

三、同类软件对比

Whisper下载指南：轻松获取的有效方法

| Whisper | 99种 | 支持 | 开源 | 多模型选择、高精度 |

四、软件使用说明

1. 命令行使用

安装后，在文件所在目录打开终端，运行`whisper audio.mp3`即可进行转录。

自定义设置可追加命令参数，如：

`task`：指定转录方式，`transcribe`为转录模式，`translate`为翻译模式（仅支持英文）。

`model`：指定使用模型，默认`small`，还有英文专用模型（名称后加`.en`，速度更快）。

`language`：指定转录语言，默认截取30秒判断语种，也可指定，如`language Chinese`。

`device`：指定硬件加速，`auto`为自动选择，`cuda`为显卡，`cpu`为CPU，`mps`为苹果M1芯片。

2. 图形界面使用（以WhisperDesktop为例）

下载软件后，点击运行，然后加载模型文件，最后选择文件即可进行转录。

支持GPU硬解，转录速度快，具体速度取决于显卡性能。

五、安装步骤

1. 安装Python：确保安装了Python 3.7或更高版本。

2. 安装FFmpeg：

下载地址：

解压后，找到bin文件夹下的“ffmpeg.exe”，将它复制到一个文件夹中，假设这个文件夹的路径是"D:softwareffmpeg"，然后将"D:/software/ffmpeg"添加到系统环境变量。

3. 安装PyTorch：根据系统环境安装相应版本的PyTorch，官方推荐使用Python 3.9.9和PyTorch 1.10.1，但预计兼容Python 3.7以后的版本和PyTorch近期更新版本。

4. 安装Whisper：

可以使用`pip install whisper`命令安装，但还需要一些依赖，如FFmpeg、PyTorch等。

也可以从github代码仓库pull安装（需要安装git），使用以下命令强制更新到当前代码仓库的版本：

git clone

cd whisper

pip install upgrade.

5. 模型文件：

Whisper模型为OpenAI的原始模型格式.pt格式，模型下载之后可放在任意位置。在命令行运行相关命令时，可以使用`model_dir`命令来指定模型文件路径。

如果不指定模型文件路径，Whisper会去下列路径寻找模型文件：

~/.cache/whisper

C:Users<你的用户名>.cachewhisper

如果该路径下也没有模型文件，则Whisper将自行下载模型文件（速度较慢）。

六、相关应用

视频字幕生成：为视频内容自动生成准确的字幕，提升视频的可访问性和国际化程度。

会议记录转写：自动转写会议内容，节省人工记录的时间和成本。

语言学习辅助：转录外语音频，帮助理解口语内容，利用翻译功能进行对比学习。

新闻媒体内容处理：快速处理音频和视频新闻内容，生成文字稿或字幕。

辅助技术：为听障人士实现实时的语音转文字。

多语言交流：在国际会议或跨国公司中用于实时翻译。

- THE END -

WPS免费下载畅享办公软件无需付费

合金弹头2下载：重温经典，畅享射击乐趣