Whisper是一款由OpenAI开发的开源免费离线语音识别软件,支持99种语言的自动语音识别和翻译任务。本文将从功能、特色、同类软件对比、使用说明、安装步骤和相关应用等方面进行详细介绍。

一、软件功能

Whisper下载指南:轻松获取的有效方法

  • 语音识别:将各种语言的语音转换成文本,支持99种语言。
  • 语音翻译:将语音内容翻译成英文文本,目前仅支持英文翻译。
  • 语言识别:自动检测音频中使用的语言,无需用户手动指定。
  • 多模型支持:提供从tiny到large不同大小的模型,用户可根据需求和硬件条件选择。
  • 二、软件特色

    Whisper下载指南:轻松获取的有效方法

  • 开源免费:作为开源项目,可自由使用和修改,促进了在各种应用场景中的推广。
  • 离线使用:能够在本地运行,无需联网,充分保障个人隐私。
  • 多语言支持:支持99种语言的语音识别和翻译,在跨语言交流和国际化应用中有巨大潜力。
  • 高性能:在某些语言上的性能甚至可与人工转录相媲美,例如英语语音识别任务中单词错误率(WER)可低至1
  • 2%。
  • 三、同类软件对比

    Whisper下载指南:轻松获取的有效方法

    | 软件名称 | 支持语言 | 离线功能 | 开源情况 | 特色功能 |

    | Whisper | 99种 | 支持 | 开源 | 多模型选择、高精度 |

    | Buzz | 多种 | 支持 | 基于Whisper | 图形界面、简单操作 |

    | 飞书妙记 | 多种 | 不支持 | 商业软件 | 多说话人区分、标点符号 |

    | 剪映电脑版 | 多种 | 不支持 | 商业软件 | 视频编辑集成 |

    四、软件使用说明

    1. 命令行使用

  • 安装后,在文件所在目录打开终端,运行`whisper audio.mp3`即可进行转录。
  • 自定义设置可追加命令参数,如:
  • `task`:指定转录方式,`transcribe`为转录模式,`translate`为翻译模式(仅支持英文)。
  • `model`:指定使用模型,默认`small`,还有英文专用模型(名称后加`.en`,速度更快)。
  • `language`:指定转录语言,默认截取30秒判断语种,也可指定,如`language Chinese`。
  • `device`:指定硬件加速,`auto`为自动选择,`cuda`为显卡,`cpu`为CPU,`mps`为苹果M1芯片。
  • 2. 图形界面使用(以WhisperDesktop为例)

  • 下载软件后,点击运行,然后加载模型文件,最后选择文件即可进行转录。
  • 支持GPU硬解,转录速度快,具体速度取决于显卡性能。
  • 五、安装步骤

    1. 安装Python:确保安装了Python 3.7或更高版本。

    2. 安装FFmpeg

  • 下载地址:
  • 解压后,找到bin文件夹下的“ffmpeg.exe”,将它复制到一个文件夹中,假设这个文件夹的路径是"D:softwareffmpeg",然后将"D:/software/ffmpeg"添加到系统环境变量。
  • 3. 安装PyTorch:根据系统环境安装相应版本的PyTorch,官方推荐使用Python 3.9.9和PyTorch 1.10.1,但预计兼容Python 3.7以后的版本和PyTorch近期更新版本。

    4. 安装Whisper

  • 可以使用`pip install whisper`命令安装,但还需要一些依赖,如FFmpeg、PyTorch等。
  • 也可以从github代码仓库pull安装(需要安装git),使用以下命令强制更新到当前代码仓库的版本:
  • git clone

    cd whisper

    pip install upgrade.

    5. 模型文件

  • Whisper模型为OpenAI的原始模型格式.pt格式,模型下载之后可放在任意位置。在命令行运行相关命令时,可以使用`model_dir`命令来指定模型文件路径。
  • 如果不指定模型文件路径,Whisper会去下列路径寻找模型文件:
  • ~/.cache/whisper

    C:Users<你的用户名>.cachewhisper

  • 如果该路径下也没有模型文件,则Whisper将自行下载模型文件(速度较慢)。
  • 六、相关应用

  • 视频字幕生成:为视频内容自动生成准确的字幕,提升视频的可访问性和国际化程度。
  • 会议记录转写:自动转写会议内容,节省人工记录的时间和成本。
  • 语言学习辅助:转录外语音频,帮助理解口语内容,利用翻译功能进行对比学习。
  • 新闻媒体内容处理:快速处理音频和视频新闻内容,生成文字稿或字幕。
  • 辅助技术:为听障人士实现实时的语音转文字。
  • 多语言交流:在国际会议或跨国公司中用于实时翻译。