SenseVoice 实测，阿里开源语音大模型，识别效果和效率优于 Whisper，居然还能检测掌声、笑声！5分钟带你部署体验_sensevoicesmall

技术文档

前段时间，带着大家捏了一个对话机器人：
手把手带你搭建一个语音对话机器人，5分钟定制个人AI小助手（新手入门篇）

其中语音识别（ASR）方案，采用的是阿里开源的 FunASR，这刚不久，阿里又开源了一个更强的音频基础模型，该模型具有如下能力：

传送门：https://github.com/FunAudioLLM/SenseVoice

今天就带着大家体验一番~

0. 项目简介

模型结构如下图所示：
SenseVoice 实测，阿里开源语音大模型，识别效果和效率优于 Whisper，居然还能检测掌声、笑声！5分钟带你部署体验_sensevoicesmall

模型亮点：

多语言语音识别：
经过超过40万小时的数据训练，支持50多种语言，其识别性能超越了Whisper模型。
丰富的转录能力：
具备出色的情感识别能力，在测试数据上超越了当前最佳模型。
提供声音事件检测能力，支持检测各种常见的人机交互事件，如背景音乐、掌声、笑声、哭泣、咳嗽和打喷嚏。
高效推理：
SenseVoice-Small模型采用非自回归的端到端框架，具有极低的推理延迟。处理10秒音频仅需70毫秒，比Whisper-Large快15倍