语音识别之whisper本地部署（实时语音之开篇）

技术文档

本文已首发于秋码记录
微信公众号：你我杂志刊
在这里插入图片描述

如果你也想搭建一个与秋码记录一样的网站，可以浏览我的这篇国内 gitee.com Pages 下线了，致使众多站长纷纷改用 github、gitlab Pages 托管平台

秋码记录网站使用的主题是开源的，目前只在github.com开源。
hugo-theme-kiwi开源地址：https://github.com/zhenqicai/hugo-theme-kiwi

Whisper是由OpenAI开发的开源语音识别模型，以其多语言支持、高准确率与鲁棒性著称。它通过68万小时的多语言、多任务数据训练，覆盖100+语言，支持语音转录、翻译和语言检测，成为目前最通用的语音识别工具之一。

其核心优势在于：

我始终使用python3自带的venv来搭建python虚拟环境，当然咯，你也是可以使用anaconda或miniconda来构建python虚拟环境。

python -m venv whisper-envcd whisper-env/Scriptsactivate

在这里插入图片描述

随后，我们安装openai-whisper这个依赖库。

pip install -U openai-whisper

或者直接从github.com仓库获取最新的。

# 或从 GitHub 安装最新版本pip install git+https://github.com/openai/whisper.git

在这里插入图片描述

我们可以看到，所安装的依赖库中包含了tiktoken，故而，就不需要在安装了。

在这里插入图片描述

虽然，whisper是可以通过CPU来推理的，但是在电脑设备具有GPU的情况，还是选择torch的CUDA版本。

pip uninstall torchpip install torch --index-url https://download.pytorch.org/whl/cu124

在这里插入图片描述

之后，新建一个demo.py文件，写入以下脚本。

import whispermodel = whisper.load_model(\"turbo\")result = model.transcribe(\"audio.wav\")print(result[\"text\"])

在这里插入图片描述

首次运行，会去下载模型，而我使用的是turbo，所以自动下载的便是large-v3-turbo。

在这里插入图片描述

如果自动下载失败了，那么就手动下载吧。

模型默认加载路径：C:\\Users\\你电脑的用户名\\.cache\\whisper

https://www.modelscope.cn/models/iic/Whisper-large-v3-turbo/files

在这里插入图片描述

DeepSeek全套部署资料免费下载