Whisper是一款由OpenAI开发的开源免费离线语音识别软件,支持99种语言的自动语音识别和翻译任务。本文将从功能、特色、同类软件对比、使用说明、安装步骤和相关应用等方面进行详细介绍。
一、软件功能

语音识别:将各种语言的语音转换成文本,支持99种语言。
语音翻译:将语音内容翻译成英文文本,目前仅支持英文翻译。
语言识别:自动检测音频中使用的语言,无需用户手动指定。
多模型支持:提供从tiny到large不同大小的模型,用户可根据需求和硬件条件选择。
二、软件特色

开源免费:作为开源项目,可自由使用和修改,促进了在各种应用场景中的推广。
离线使用:能够在本地运行,无需联网,充分保障个人隐私。
多语言支持:支持99种语言的语音识别和翻译,在跨语言交流和国际化应用中有巨大潜力。
高性能:在某些语言上的性能甚至可与人工转录相媲美,例如英语语音识别任务中单词错误率(WER)可低至1
2%。
三、同类软件对比

| 软件名称 | 支持语言 | 离线功能 | 开源情况 | 特色功能 |
| Whisper | 99种 | 支持 | 开源 | 多模型选择、高精度 |
| Buzz | 多种 | 支持 | 基于Whisper | 图形界面、简单操作 |
| 飞书妙记 | 多种 | 不支持 | 商业软件 | 多说话人区分、标点符号 |
| 剪映电脑版 | 多种 | 不支持 | 商业软件 | 视频编辑集成 |
四、软件使用说明
1. 命令行使用
安装后,在文件所在目录打开终端,运行`whisper audio.mp3`即可进行转录。
自定义设置可追加命令参数,如:
`task`:指定转录方式,`transcribe`为转录模式,`translate`为翻译模式(仅支持英文)。
`model`:指定使用模型,默认`small`,还有英文专用模型(名称后加`.en`,速度更快)。
`language`:指定转录语言,默认截取30秒判断语种,也可指定,如`language Chinese`。
`device`:指定硬件加速,`auto`为自动选择,`cuda`为显卡,`cpu`为CPU,`mps`为苹果M1芯片。
2. 图形界面使用(以WhisperDesktop为例)
下载软件后,点击运行,然后加载模型文件,最后选择文件即可进行转录。
支持GPU硬解,转录速度快,具体速度取决于显卡性能。
五、安装步骤
1. 安装Python:确保安装了Python 3.7或更高版本。
2. 安装FFmpeg:
下载地址:
解压后,找到bin文件夹下的“ffmpeg.exe”,将它复制到一个文件夹中,假设这个文件夹的路径是"D:softwareffmpeg",然后将"D:/software/ffmpeg"添加到系统环境变量。
3. 安装PyTorch:根据系统环境安装相应版本的PyTorch,官方推荐使用Python 3.9.9和PyTorch 1.10.1,但预计兼容Python 3.7以后的版本和PyTorch近期更新版本。
4. 安装Whisper:
可以使用`pip install whisper`命令安装,但还需要一些依赖,如FFmpeg、PyTorch等。
也可以从github代码仓库pull安装(需要安装git),使用以下命令强制更新到当前代码仓库的版本:
git clone
cd whisper
pip install upgrade.
5. 模型文件:
Whisper模型为OpenAI的原始模型格式.pt格式,模型下载之后可放在任意位置。在命令行运行相关命令时,可以使用`model_dir`命令来指定模型文件路径。
如果不指定模型文件路径,Whisper会去下列路径寻找模型文件:
~/.cache/whisper
C:Users<你的用户名>.cachewhisper
如果该路径下也没有模型文件,则Whisper将自行下载模型文件(速度较慢)。
六、相关应用
视频字幕生成:为视频内容自动生成准确的字幕,提升视频的可访问性和国际化程度。
会议记录转写:自动转写会议内容,节省人工记录的时间和成本。
语言学习辅助:转录外语音频,帮助理解口语内容,利用翻译功能进行对比学习。
新闻媒体内容处理:快速处理音频和视频新闻内容,生成文字稿或字幕。
辅助技术:为听障人士实现实时的语音转文字。
多语言交流:在国际会议或跨国公司中用于实时翻译。