语音 - 第13页|程序员档案馆

【github 有趣项目】 EdgeTTS 微软 Edge 浏览器的联机文本转语音服务 & TXT/PDF转音频(TXT/PDF → MP3)实现_微软 tts 在线语音合成

EdgeTTS(https://github.com/rany2/edge-tts) 是一个非常实用的开源工具，它调用微软 Edge 浏览器背后的 Azure TTS（Text-to-Speech）接口，可以免费合成...

Bloger 07-30 0 391 技术文档

近年来，数字人技术的迅猛发展吸引了众多研究者和开发者的关注。开源社区也涌现出许多优秀的项目，为数字人技术的发展提供了强有力的支持。本文将对一些目前...

Bloger 07-30 0 605 技术文档

有时候，打字太麻烦。用语音记录想法、会议纪要、备忘事项，简单高效。本篇将用鸿蒙 ArkTS 原生 API，手把手教你构建一款语音备忘录应用： ✅ 录音一键开始/...

Bloger 07-30 0 46 技术文档

我的主页：2的n次方_ 近年来，生成式人工智能（AIGC，Artificial Intelligence Generated Content）技术迅速发展，彻底改变了内容创作的各个领...

Bloger 07-30 0 920 技术文档

🔊 Whisper 模型介绍（OpenAI 语音识别系统）一、概述 Whisper 是由 OpenAI 开发的一个开源、端到端语音识别系统（ASR，Automatic Speech Recogniti...

Bloger 07-30 0 635 技术文档

在众多AI内容生成平台中，ViiTor AI 是近年来非常受欢迎的多模态创作工具之一。它集成了AI写作、图像生成、语音克隆、唇形同步、视频翻译配音等多个功能，主...

Bloger 07-30 0 782 技术文档

在当今的多媒体制作和内容创作中，文本转语音 (TTS) 技术日益重要。无论是播客、视频解说、电子书朗读，还是其他语音合成应用，TTS 技术都可以极大地提高工...

Bloger 07-30 0 330 技术文档

LLaMA-Omni 开源项目教程 1. 项目介绍 LLaMA-Omni 是基于 Llama-3.1-8B-Instruct 构建的低延迟、高质量的端到端语音交互模型。该模型能够根据语音指令同时生...

Bloger 07-30 0 228 技术文档

引言上一期文章我们已经成功实现了长按电源键唤醒 Home Assistant Assist，然后通过语音控制智能设备（但是据群友反馈国产手机似乎无法替换系统自带的语音...

Bloger 07-30 0 817 技术文档

基于WebRTC的实时语音对话系统：从语音识别到AI回复在当今数字化时代，实时语音交互已成为人机界面的重要组成部分。本文将深入探讨一个基于WebRTC技术的实...

Bloger 07-30 0 819 技术文档