SenseVoice 实测,阿里开源语音大模型,识别效果和效率优于 Whisper,居然还能检测掌声、笑声!5分钟带你部署体验_sensevoicesmall
前段时间,带着大家捏了一个对话机器人:
手把手带你搭建一个语音对话机器人,5分钟定制个人AI小助手(新手入门篇)
其中语音识别(ASR)方案,采用的是阿里开源的 FunASR,这刚不久,阿里又开源了一个更强的音频基础模型,该模型具有如下能力:
- 语音识别(ASR)
- 语种识别(LID)
- 语音情感识别(SER)
- 声学事件分类(AEC)
- 声学事件检测(AED)
传送门:https://github.com/FunAudioLLM/SenseVoice
今天就带着大家体验一番~
0. 项目简介
模型结构如下图所示:
模型亮点:
-
多语言语音识别:
经过超过40万小时的数据训练,支持50多种语言,其识别性能超越了Whisper模型。 -
丰富的转录能力:
具备出色的情感识别能力,在测试数据上超越了当前最佳模型。
提供声音事件检测能力,支持检测各种常见的人机交互事件,如背景音乐、掌声、笑声、哭泣、咳嗽和打喷嚏。 -
高效推理:
SenseVoice-Small模型采用非自回归的端到端框架,具有极低的推理延迟。处理10秒音频仅需70毫秒,比Whisper-Large快15倍