WhisperLiveKit：实时、完全本地化的语音转文本技术

技术文档

WhisperLiveKit：实时、完全本地化的语音转文本技术

【免费下载链接】WhisperLiveKit Real-time, Fully Local Speech-to-Text and Speaker Diarization. FastAPI Server & Web Interface 项目地址: https://gitcode.com/GitHub_Trending/wh/WhisperLiveKit

项目介绍

WhisperLiveKit 是一款基于 Whisper Streaming 的开源项目，它能够让您直接在浏览器中转录音频。该项目提供了一套完整的后端解决方案，用于实现实时语音转录，并且附带了一个可定制的示例前端界面。所有操作都在您的机器上本地运行，确保了数据的安全性和隐私。

项目技术分析

WhisperLiveKit 的技术架构主要包括两个核心组件：

后端（服务器）：基于 FastAPI 的 WebSocket 服务器，负责处理音频并提供实时转录服务。
前端示例：一个简单的 HTML 和 JavaScript 实现，用于演示如何捕获和流式传输音频。

该项目使用了多种先进的技术，包括 Whisper 语音识别引擎、Diart 说话人识别技术等，确保了转录的准确性和实时性。

项目及技术应用场景

WhisperLiveKit 的应用场景丰富多样，主要包括：

会议转录：实时记录会议内容，方便后续回顾和分析。
辅助工具：为听障用户提供实时对话的转录，帮助他们更好地参与交流。
内容创作：自动转录播客或视频中的内容，提升创作效率。
客户服务：转录客户支持电话，结合说话人识别，提供更优质的服务。

项目特点

WhisperLiveKit 具有以下显著特点：

实时转录：在您讲话的同时，立即将语音转换为文本。
说话人识别：实时识别不同说话人，区分不同参与者的发言。
完全本地化：所有数据处理都在本地完成，不涉及外部服务器，保护用户隐私。
多用户支持：单个后端服务器能够同时处理多个用户的请求。

此外，WhisperLiveKit 还具备以下优势：

多用户支持：通过解耦后端与在线 ASR，能够同时处理多个用户请求。
针对苹果硅优化：MLX Whisper 后端能够更快速地处理本地数据。
缓冲区预览：展示尚未验证的转录片段。
置信度验证：立即验证高置信度标记，加快推理速度。

快速开始

安装 WhisperLiveKit 非常简单：

# 安装包pip install whisperlivekit# 启动转录服务器whisperlivekit-server --model tiny.en# 在浏览器中打开 http://localhost:8000

只需按照以上步骤操作，即可开始实时转录体验。

安装选项

WhisperLiveKit 支持多种安装方式，包括从 PyPI 安装、从源代码安装，以及安装系统依赖和可选依赖。

使用示例

WhisperLiveKit 提供了多种使用方式，包括命令行界面、Python API 集成和前端实现。

命令行界面

通过命令行启动服务器，支持多种配置选项：

# 基本服务器，使用英文模型whisperlivekit-server --model tiny.en# 高级配置，启用说话人识别whisperlivekit-server --host 0.0.0.0 --port 8000 --model medium --diarization --language auto

Python API 集成（后端）

通过 FastAPI 框架集成 WhisperLiveKit，提供 WebSocket 服务：

from whisperlivekit import WhisperLiveKitfrom whisperlivekit.audio_processor import AudioProcessorfrom fastapi import FastAPI, WebSocketimport asyncio# 初始化组件app = FastAPI()kit = WhisperLiveKit(model=\"medium\", diarization=True)# 处理 WebSocket 连接@app.websocket(\"/asr\")async def websocket_endpoint(websocket: WebSocket): audio_processor = AudioProcessor() await websocket.accept() results_generator = await audio_processor.create_tasks() websocket_task = asyncio.create_task( handle_websocket_results(websocket, results_generator) ) try: while True: message = await websocket.receive_bytes() await audio_processor.process_audio(message) except Exception as e: print(f\"WebSocket 错误: {e}\") websocket_task.cancel()

前端实现

WhisperLiveKit 包含了一个简单的 HTML/JavaScript 实现，可以根据项目需求进行定制。

配置参考

WhisperLiveKit 提供了丰富的配置选项，以满足不同场景的需求。

工作原理

WhisperLiveKit 的工作流程如下：

音频捕获：使用浏览器的 MediaRecorder API 捕获 webm/opus 格式的音频。
流式传输：音频块通过 WebSocket 传输到服务器。
处理：服务器使用 FFmpeg 解码音频，然后将其流式传输到 Whisper 进行转录。
实时输出：部分转录内容以浅灰色立即显示，最终转录内容以正常颜色显示，不同说话人的内容可以高亮显示。

部署指南

将 WhisperLiveKit 部署到生产环境需要以下步骤：

服务器设置（后端）：

# 安装生产 ASGI 服务器pip install uvicorn gunicorn# 使用多个工作进程启动gunicorn -k uvicorn.workers.UvicornWorker -w 4 your_app:app

前端集成：
- 在您的 Web 应用程序中托管定制的 HTML/JS 版本。
- 确保 WebSocket 连接指向您的服务器地址。

Nginx 配置（建议在生产环境中使用）：

server { listen 80; server_name your-domain.com; location / { proxy_pass http://localhost:8000; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection \"upgrade\"; proxy_set_header Host $host; }}

HTTPS 支持：对于安全部署，WebSocket URL 应使用 \"wss://\" 而不是 \"ws://\"。

使用场景

WhisperLiveKit 可用于多种场景，如会议转录、辅助工具、内容创作和客户服务等。

通过 WhisperLiveKit，开发者可以轻松地将实时语音转录功能集成到自己的应用程序中，提升用户体验和服务质量。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

WhisperLiveKit：实时、完全本地化的语音转文本技术