> 文档中心 > 语音之家SOTA | 同声传译现场 时政

语音之家SOTA | 同声传译现场 时政


SpeechIO TIOBE Benchmark

场景测试:同声传译现场 时政

1、素材来源

YouTube 爬取美联储、白宫发布会、政要座谈会等时政素材的中文同传现场,原始时长约两个半小时。

场景上,本期测试的特点为英文、中文声音交叠,同时进行。本类素材,源语言说话人的音量一般会被压制得非常低,可听见,但听不清内容,从语音识别的角度来讲更像是一种噪声。这种人声噪声,对频谱造成的干扰比一般噪声要复杂得多,对语音系统的挑战也更大。内容上,本期测试内容很简单,主要是一些时政新闻中的常见词汇和话题。

2、场景特点

  • 环境

    • 同传室,制作棚,同传人员周边安静,无噪声。

  • 拾音设备

    • 专业麦克风,近场

  • 说话人

    • 同传翻译员

  • 说话方式

    • 语速中等偏快

    • 吐字清晰

    • 组织语言常见卡顿,重复

  • 方言

    • 标准化

  • 内容领域

    • 时政

3、测试结果

测试时间:2021.10

本场景会进行定期重测(每3个月),关注最新滚动测试报告查看最新结果。

Company Platform Accuracy(%) = 1-CER
AISpeech 思必驰 96.98
Alibaba 阿里云 90.3
Baidu 百度智能云 91.82
iFLYTEK 讯飞开放平台 90.26
Microsoft Azure 95.3
Sogou AI开放平台 96.35
Tencent 腾讯云 94.56
YITU Tech 语音开放平台 97.12

* 讯飞目前被低估,目前为听写服务,转写服务接入调试中。详见(SOTA)

4、简评

本场景为英文到中文的同传现场,场景目标是识别中文内容,由标注员负责切分并标注中文同传声音的片段。虽然英文音量非常低,但与切分出的中文部分有少量交叠(同传卡顿间隔,反应延时等等)。讯飞和阿里的引擎对低音量灵敏且对英文比较灵敏,经常识别出零散的英文乱码词汇,错误率较高。

历史评测系列:

发布日期 文章
2020.03 引篇
2020.04 Specification & Guideline
场景:新闻联播
场景:访谈节目 鲁豫有约
滚动测试报 2020.04
2020.05 场景:天下足球 世界杯往事
场景:场馆演讲 罗振宇跨年演讲
场景:李永乐老师 在线讲堂
滚动测试报 2020.05
2020.06 场景:直播 王者荣耀 张大仙&骚白
场景:直播 带货 李佳琪&薇娅
场景:线下培训 老罗语录
滚动测试报 2020.06
2020.07 标注修复:直播&老罗
滚动测试报 2020.07
2020.08 场景:播客 故事FM
场景:播客 创业内幕
滚动测试报 2020.08
2020.09 场景:在线教育 罗翔 刑法法考
场景:在线教育 张雪峰 考研
滚动测试报 2020.09
2020.10 场景:短视频 电影剪辑 谷阿莫&牛叔说电影
场景:短视频 美食 贫穷料理&琼斯爱生活
指标:"当我们谈SOTA时,我们在谈论什么?"
滚动测试报 2020.10
2020.11 场景:评书 单田芳 白眉大侠
场景:相声 德云社专场
场景:脱口秀 吐槽大会
滚动测试报 2020.11
2020.12 场景:少儿卡通 小猪佩奇&熊出没
滚动测试报 2020.12
2021.01 场景:体育赛事解说 NBA
场景:纪录片 篮球人物
滚动测试报 2021.01
2021.02 场景:经济 金融 货币
2021.04 场景:短视频 汽车之家 汽车评测
场景:短视频 小艾大叔 豪宅带看
滚动测试报 2021.04
2021.07 场景:短视频 产品开箱视频 Zealer&无聊开箱
场景:短视频 付老师 农业种植
场景:短视频 线下培训 石国鹏 古希腊哲学
滚动测试报 2021.07
2021.10 场景:张震鬼故事
场景:华语大学生辩论赛
场景:同声传译现场 时政
滚动测试报 2021.10

开源评测平台 Leaderboard:

发布日期 文章
2021.04 Leaderboard 开源测试平台发布
2021.08 加入开源 Kaldi 预训练模型 Kaldi-multicn
加入 AISHELL-1 测试集
加入 AISHELL-2 测试集
加入开源 WeNet-multicn 模型