【AIGC】AI文本转语音+语音转文本，构建专属领域转文本模型_语音转文字ai模型

技术文档

AI文本转语音+语音转文本

1.引言
2.实例
- 2.1文本转语音
- 2.2文字合成语音
- 2.3语音转文字
- 2.4使用热词库
- 2.5完整代码
3.总结

1.引言

在AI领域，文本转语音和语音转文本技术已经取得了显著的进展。这些技术在许多领域都有广泛的应用，如语音助手、实时弹幕、通话检测等。本文我们使用阿里的语音合成和语音识别技术，实现文本转语音和语音转文本的完整流程，并讲述如何针对自己的业务构建专属转文本模型。

2.实例

现实中会有很多场景需要我们去分析语音，类似在我们实际业务中，通过用户的沟通记录去识别用户的意图，例如：用户对产品的体验、或者用户对我们产品的购买意愿等等，而这时候很多场景需要我们去完成语音转文本，再通过文本去识别用户意图，所以我们需要去尝试将语音转文本。但是这其中会存在一个问题，就是模型怎么知道你的专属名词，比如我创建了一个新APP叫咸货，但是模型是不认识这个品牌的，所以转出来的效果很难让文字百分百精准对上我们的品牌，这块是我们需要去解决的一个问题。但首先我们需要一个语音，去完成我们的实例展示。
在这里插入图片描述

2.1文本转语音

我们用阿里的CosyVoice合成对应语音，再模拟真实业务场景解决语音转文字中的实际问题。我们将这段文字转为语音: 老板，最近我们上线了一个新应用，叫咸货，您可以在上面发布您的闲置物品，也可以购买别人发布的闲置物品，非常方便。，我们特地把名称取得不寻常不叫闲货，而是叫咸货，这样模型就不知道这个品牌，所以转出来的效果很难让文字百分百精准对上我们的品牌，这块是我们需要去解决的一个问题。

2.2文字合成语音

import dashscopefrom dashscope.audio.tts_v2 import *# 设置阿里百炼API密钥dashscope.api_key = \'sk-xxx\'model = \"cosyvoice-v1\"voice = \"loongbella\"synthesizer = SpeechSynthesizer(model=model, voice=voice)audio = synthesizer.call(\"老板，最近我们上线了一个新应用，叫咸货，您可以在上面发布您的闲置物品，也可以购买别人发布的闲置物品，非常方便。\")print(\'requestId: \', synthesizer.get_last_request_id())with open(\'output.mp3\', \'wb\') as f: f.write(audio)

按照官方示例代码转出了8秒的语音，然后我们接下来将这个录音上传到阿里云（或者别的平台，只要能让模型访问到这个录音就可以），我们就把这个语音当作真实业务场景，去完成分析。
【AIGC】AI文本转语音+语音转文本，构建专属领域转文本模型_语音转文字ai模型

2.3语音转文字

用阿里的paraformer模型去完成。

from http import HTTPStatusimport jsonimport dashscopefrom dashscope.audio.asr import *

【AIGC】AI文本转语音+语音转文本，构建专属领域转文本模型_语音转文字ai模型

AI文本转语音+语音转文本

1.引言

2.实例

2.1文本转语音

2.2文字合成语音

2.3语音转文字

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

【AIGC】AI文本转语音+语音转文本，构建专属领域转文本模型_语音转文字ai模型

AI文本转语音+语音转文本

1.引言

2.实例

2.1文本转语音

2.2文字合成语音

2.3语音转文字

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签