转录|程序员档案馆

OpenAI Realtime API 详解：构建低延迟多模态交互体验（Beta版）

OpenAI Realtime API 详解：构建低延迟多模态交互体验（Beta版）在实时交互场景日益丰富的今天，低延迟、多模态的交互体验已成为开发者的核心需求。OpenAI...

Bloger 09-04 0 384 技术文档

faster-whisper-large-v3长音频分段处理策略【免费下载链接】faster-whisper-large-v3 项目地址: https://ai.gitcode.com/mirrors/Systran/faster-whi...

Bloger 09-03 0 463 技术文档

WhisperLiveKit：实时、完全本地化的语音转文本技术【免费下载链接】WhisperLiveKit Real-time, Fully Local Speech-to-Text and Speaker Diarization. F...

Bloger 09-03 0 457 技术文档

音视频处理新纪元：12款AI模型的语音转录和视频理解能力横评 🌟 Hello，我是摘星！ 🌈 在彩虹般绚烂的技术栈中，我是那个永不停歇的色彩收...

Bloger 09-02 0 512 技术文档

语音识别（ASR）在人机交互方面发挥着重要的作用，可用于：转录、翻译、听写、语音合成、关键字定位、语音日记、语言增强等场景。语音识别基本过程一般包括...

Bloger 09-02 0 289 技术文档

Faster-Whisper —— 为语音识别加速的利器在语音识别技术迅速发展的今天，OpenAI 的 Whisper 模型因其强大的多语言识别能力和优异的准确率而受到广泛关注。...

Bloger 09-02 0 257 技术文档

在 Windows 上部署 OpenAI Whisper：详细教程 OpenAI Whisper 是一个功能强大的多语言语音识别模型，能够处理多种音频格式并生成高质量的字幕文件。本文将详...

Bloger 09-02 0 952 技术文档

Whisper 是论文中提出的用于自动语音识别（ASR）和语音翻译先进的模型通过大规模弱监督实现稳健语音识别作者：Alec Radford 等人，来自 OpenAI。Wh...

Bloger 08-15 0 777 技术文档

音视频处理新纪元：12款AI模型的语音转录和视频理解能力横评 🌟 Hello，我是摘星！ 🌈 在彩虹般绚烂的技术栈中，我是那个永不停歇的色彩收...

Bloger 08-15 0 577 技术文档

语音识别（ASR）在人机交互方面发挥着重要的作用，可用于：转录、翻译、听写、语音合成、关键字定位、语音日记、语言增强等场景。语音识别基本过程一般包括...

Bloger 08-08 0 233 技术文档