本文引见清华大学语音处置与机器智能实验室(Speech Processing and Machine Learning Intelligence, SPMI)与美团的分离工作:为端到端ASR(Automatic Speech Recognition)提出一种性能更好、解码更轻量的言语模型融合方式——LODR。该工作已被语音范畴的国际会议Interspeech 2022接纳,论文的作者是郑华焕、安柯宇、欧智坚、黄辰、丁科、万广鲁。 端到端辨认系统与言语模型融合端到端ASR系统,是经过一个神经网络模型,直接将音频序列转换为对应文本序列的辨认系统。相关于传统混合模型中声学模型、发音词典和语音模型模块化建模的方式,基于深度神经网络的端到端系统经过一个网络对整个辨认过程中止封装,并对网络参数整体中止优化,在大量音频-文本配对数据下性能突出,近年来逐步遭到学术界和工业界的注重。 相关于音频-文本配对数据而言,实践消费中获取纯文本数据成本更低,且可获取的纯文本数据常常比音频-文本配对数据多几个以至几十个数量级。此外在一些如范畴迁移、专有名词和热词辨认等场景中,应用好文本信息也尤为重要。如何应用好海量的纯文本数据,进一步提升辨认精确率,是目前端到端ASR研讨的重要问题,也是数据高效ASR的重要特征。 内部言语模型估量与解耦目前,最为常用的在端到端ASR中应用文本的方式是,融合外部的言语模型(External Language Model, ELM),运用ELM学习文本信息,再与ASR系统融合。一个最常用的融合ELM的方式是,直接将ASR系统得分与ELM得分中止线性插值求和,即shallow fusion措施。对端到端系统的一个察看是,其学习建模了P(Y|X)的文本后验概率,自然地也学习了部分关于文本的信息。和ELM相对,我们将其端到端系统内部学习到的文本信息建模,称为端到端ASR系统的内部言语模型(Internal Language Model,ILM)。为了更好的融合ELM,一个直观的想法是,先“减去”ILM,再“加上”ELM(数学上讲是运用贝叶斯公式)。 ELM与ILM建模的都是P(Y)的信息,我们希望将ILM的部分交流为ELM。一些现有的工作均表明,在端到端ASR系统中,“减去”ILM相关于shallow fusion能带来更好的辨认精确率。但在端到端系统中,普通无法直接精确计算出ILM,因而许多工作关注如何更好的估量ILM。 LODR(Low Order Density Ratio)本文以基于Transducer模型(也称为RNN-Transducer,RNN-T)的端到端系统为例来探求。Transducer模型由三部分构成:担任声学特征建模的Encoder,担任文本信息建模的Predictor,以及担任将两部分信息聚合的Joint network。实践研讨和应用中,Joint network普通是由若干前馈层和非线性激活函数组成,这招致其两部分输入(也即Encoder与Predictor的输出)是不可分的,因而我们无法直接计算出ILM建模的P(Y)。 但是,普通以为Predictor起了近似ILM的作用,有如下一些基本共识:
从这些对Predictor的察看中,我们总结得到:RNN-T ILM,应当是一个低阶LM(即便用了很短的context),其文本建模才干很弱。依据总结,我们提出运用一个低阶的2-gram模型(并加上若干裁剪)对ILM中止估量。在锻炼该2-gram模型时,我们仅运用音频匹配文本,这样使得2-gram应用的信息和RNN-T的真实ILM坚持分歧。 在解码时,我们计算RNN-T系统得分、估量的ILM得分和ELM得分的加权和作为选取候选的依据,其中估量的ILM权重普通是负值(实践操作中,我们会对ILM权重和ELM权重参数做搜索,搜索时并不限制其符号,而结果显现ILM权重均为负值,ELM权重均为正值,这反过来也印证了“先减后加”的想法)。 由于我们提出的措施是基于density ratio战略的,并且主要特性是仅运用低阶的LM作为ILM近似,我们将这一措施称为low order density ratio(LODR)。 实验结果数据方面,音频-文本匹配数据,我们运用了英文的960小时Librispeech和中文普通话Wenetspeech的1000小时子集作为RNN-T模型的锻炼数据;纯文本数据方面,英文中运用了Librispeech官方提供的额外语料(约800M词,锻炼集文本约9.4M词),中文实验中运用了来自CC100的中文语料(约200M字,锻炼集文本约17M字)。 我们还在范畴迁移场景做了测试:将上述锻炼的RNN-T模型分别在英文Tedlium-2和中文AISHELL-1测试集中测试。此时的ELM仅运用目的范畴的少量文本锻炼。 总结本工作分离以往研讨对RNN-T模型的思索,提出了应用低阶言语模型近似ILM的措施,在不同场景和中英文下测试,与现有的措施相比均抵达了良好的辨认精确率; 同时,在解码时,相对DR措施额外引入的NN LM计算、ILME措施引入的文本建模模块第2遍计算,我们的LODR措施引入的2-gram在解码时仅需求做简单的查询,计算开支更少、速度更快,计划更为轻量化。 最后需求指出的是,LODR并不局限于RNN-T模型。不难看出,LODR亦可方便地用于AED(Attention Encoder-Decoder)端到端ASR模型。LODR将于近期在CAT工具包开源发布,敬请关注! CAT工具包链接:https://github.com/thu-spmi/CAT 更有人工智能语音相关方面资讯,请关注语音之家公众号及官网:http://www.speechhome.com/ |