> 文档中心 > NCMMSC论文介绍 | 探索语音自监督模型的高效融合算法

NCMMSC论文介绍 | 探索语音自监督模型的高效融合算法

本文介绍了清华大学语音与音频技术实验室(SATLab)与上海交通大学跨媒体语言智能实验室(X-LANCE)合作的NCMMSC录用论文:Exploring Effective Fusion Algorithms for Speech Based Self-Supervised Learning Models。该论文提出了一系列语音自监督模型融合算法,并基于语音自监督模型的评测框架SUPERB展开一系列实验。实验结果表明,该论文中提出的融合算法,有效地结合了目前表现出色的语音自监督模型 HuBERT 与 Data2vec 的优势,提高了模型在说话人识别与语音识别任务上的表现。

01 语音自监督模型各有偏好

近年来,自监督学习在语音领域取得巨大成功。语音自监督学习的一般思想,是基于语音的上下文信息进行重构或预测自身,使模型能够在无监督的情况下有效地学习底层结构信息。语音自监督模型可以在大量的无标记语音数据上进行预训练,然后在特定的下游任务上用少量的标注语音进行微调,以实现显著的性能提高。目前已涌现出一系列成功的语音自监督模型,如Wav2vec 2.0,HuBERT,WavLM,Data2vec等。

现有的研究表明,不同的语音自监督模型,对下游任务的偏好不同。在我们的工作中,我们基于SUPERB——一个语音自监督模型评测框架,首次评测了 Data2vec 在不同任务上的表现,并与现有的自监督模型进行对比。我们发现,一些模型在说话人相关的任务上表现出色,例如 HuBERT;一些模型在内容相关的任务上出类拔萃,例如 Data2vec。同时我们也发现,对于偏好不同的模型,其内部的transformer层编码了截然不同的信息,如图1所示。

图1. SUPERB评测系统中,HuBERT 与 Data2vec 在不同下游任务上的权重对比

我们思考,能否做到一种融合算法,将不同自监督模型的信息有效地提取并融合,使融合模型能够综合各模型的优点,在不同的下游任务上做到“十项全能”呢?基于此,我们提出了一系列融合算法,希望能够融合不同模型的优势。

02 语音自监督模型融合算法

我们提出并比较了四种针对多种自监督模型的融合方法(如图2所示):两种特征级融合和两种概率级融合。这四种方法的模型融合阶段,按照信息交互时间依次向后伸。

 图2. 语音自监督模型的四种融合方式

设函数F表示下游模型,m为要融合的模型个数,l为每个模型的层数,wij,hij分别表示第 i 个模型的第 j 层特征的权值和隐层向量。

第一种融合算法,是简单地直接融合各模型特征。如图(2)a 图所示,我们直接将各模型各层特征进行线性加权,得到的融合特征送入下游模型中。这里,不同模型在前向传播后直接进行信息交流,最终针对特定任务的概率分布为

第二种融合算法,是对各模型进行结构化的融合。如图(2)b 图所示,首先,我们对每个自监督模型的不同层的特征进行加权求和;然后,我们应用第一步中这些输出再进行结构化的加权,以得到下游模型的输入。这里,不同模型提取的信息经历了各自的特征融合器之后才进行交流融合,最终得到针对特定任务的概率分布为

第三种融合算法,是在概率层面进行融合。如图(2)c 图所示,对于每个自监督模型,我们对不同层的特征进行加权,并将结果输入下游模型。下游模型的输出形成了一个任务标签的概率分布。我们在这里融合不同模型得到的概率分布,并使用融合的概率分布进行推理。不同模型提取的信息经过相同的下游模型后相互融合,最终得到的概率分布可表示为

第四种融合算法,与第三种类似,但不同自监督模型各自享有独立的下游模型,如图(2)d 图所示。不同下游模型产生的概率分布将被融合,融合的分布将用于最终的推断,最终的概率分布可表示为

03 模型融合实验与分析

为了更好地对比模型融合的效果,我们基于SUPERB,令自监督模型在微调过程中被冻结,只有较小的下游模型与模型的特征融合器(Featurizer)可以被更新。我们选择 Data2vec 和 HuBERT 作为待融合的模型,因为他们对下游任务不同的偏好,正是我们想要的。我们主要分析两大任务:说话人识别与语音识别,它们分别是说话人相关任务与内容相关任务的典型代表。

如图3所示,实验结果表明,对于说话人相关任务,仅仅是简单的特征融合,会大幅降低识别的准确率。这一大幅衰减,可以通过结构化的模型融合来避免。这一结论同样对语音识别任务有效。这可能是因为,如果直接融合往往会混淆信息,因为不同模型的内在特征有很大的不同,进行结构化加权后能够更好地利用模型的能力,而不会引起模型间的信息混淆。

同时,我们发现,对于说话人识别任务,信息交换的阶段越接近任务的标签,融合效果就越加有效。

图3. 四种融合方式在 SID 任务与 ASR 任务的表现

在大模型上,结构化融合同样适用。我们尝试了语音识别任务上大模型的结构化融合,词错率降低了7%,目前仍然是SUPERB上的最佳结果。

 图4. 结构化融合有利于大模型语音识别

我们提出了一系列模型融合方法,旨在综合不同语音自监督模型的优势。实验结果表明,我们提出的方法有效地综合了不同语音自监督模型在不同任务上的能力,相对于单个模型而言,融合模型的能力取得了显著的提升。

第一作者简介

唐昌礼,清华大学电子工程系2020级本科生,曾于清华大学语音与音频技术实验室、上海交通大学跨媒体语言智能实验室参与 SRT 项目。

王与进,清华大学电子工程系2020级本科生,曾于清华大学语音与音频技术实验室、上海交通大学跨媒体语言智能实验室参与 SRT 项目。