名奢网 › 名表› 名表日报 › 查看内容

【语音之家】Interspeech2022论文解读 | LODR：一种更好 ...

2023-1-7 16:32| 发布者: fuwanbiao| 查看: 72| 评论: 0

放大缩小

简介：本文引见清华大学语音处置与机器智能实验室（Speech Processing and Machine Learning Intelligence, SPMI）与美团的分离工作：为端到端ASR（Automatic Speech Recognition）提出一种性能更好、解码更轻量的言语模型 ...

本文引见清华大学语音处置与机器智能实验室（Speech Processing and Machine Learning Intelligence, SPMI）与美团的分离工作：为端到端ASR（Automatic Speech Recognition）提出一种性能更好、解码更轻量的言语模型融合方式——LODR。该工作已被语音范畴的国际会议Interspeech 2022接纳，论文的作者是郑华焕、安柯宇、欧智坚、黄辰、丁科、万广鲁。

端到端辨认系统与言语模型融合

端到端ASR系统，是经过一个神经网络模型，直接将音频序列转换为对应文本序列的辨认系统。相关于传统混合模型中声学模型、发音词典和语音模型模块化建模的方式，基于深度神经网络的端到端系统经过一个网络对整个辨认过程中止封装，并对网络参数整体中止优化，在大量音频-文本配对数据下性能突出，近年来逐步遭到学术界和工业界的注重。

相关于音频-文本配对数据而言，实践消费中获取纯文本数据成本更低，且可获取的纯文本数据常常比音频-文本配对数据多几个以至几十个数量级。此外在一些如范畴迁移、专有名词和热词辨认等场景中，应用好文本信息也尤为重要。如何应用好海量的纯文本数据，进一步提升辨认精确率，是目前端到端ASR研讨的重要问题，也是数据高效ASR的重要特征。

【语音之家】Interspeech2022论文解读 | LODR：一种更好 ...

内部言语模型估量与解耦

目前，最为常用的在端到端ASR中应用文本的方式是，融合外部的言语模型（External Language Model, ELM），运用ELM学习文本信息，再与ASR系统融合。一个最常用的融合ELM的方式是，直接将ASR系统得分与ELM得分中止线性插值求和，即shallow fusion措施。对端到端系统的一个察看是，其学习建模了P(Y|X)的文本后验概率，自然地也学习了部分关于文本的信息。和ELM相对，我们将其端到端系统内部学习到的文本信息建模，称为端到端ASR系统的内部言语模型（Internal Language Model，ILM）。为了更好的融合ELM，一个直观的想法是，先“减去”ILM，再“加上”ELM（数学上讲是运用贝叶斯公式）。

ELM与ILM建模的都是P(Y)的信息，我们希望将ILM的部分交流为ELM。一些现有的工作均表明，在端到端ASR系统中，“减去”ILM相关于shallow fusion能带来更好的辨认精确率。但在端到端系统中，普通无法直接精确计算出ILM，因而许多工作关注如何更好的估量ILM。

【语音之家】Interspeech2022论文解读 | LODR：一种更好 ...

LODR（Low Order Density Ratio）

本文以基于Transducer模型（也称为RNN-Transducer，RNN-T）的端到端系统为例来探求。Transducer模型由三部分构成：担任声学特征建模的Encoder，担任文本信息建模的Predictor，以及担任将两部分信息聚合的Joint network。实践研讨和应用中，Joint network普通是由若干前馈层和非线性激活函数组成，这招致其两部分输入（也即Encoder与Predictor的输出）是不可分的，因而我们无法直接计算出ILM建模的P(Y)。

但是，普通以为Predictor起了近似ILM的作用，有如下一些基本共识：

Predictor仅需求少量参数的浅层神经网络：在我们的实验中，Predictor仅运用了1层LSTM，许多其他工作也是相似的设置，或仅运用简单的一维卷积；
Predictor只应用了有限历史信息（limited context）：约束Predictor的历史信息长度（对应卷积中的左感受野），能够发现当Predictor的历史信息为1-2个token时，就能抵达接近完好历史信息的精确率；
疏忽Joint network的不可分性质，直接zero out声学Encoder部分近似计算得到的ILM，实验中察看是一个建模才干十分弱的言语模型。主要证据是在指定语料上测试，该ILM的混杂度（perplexity，PPL）相对直接单独锻炼的LM显著要高（PPL越低表示LM对句子建模越好）。

从这些对Predictor的察看中，我们总结得到：RNN-T ILM，应当是一个低阶LM（即便用了很短的context），其文本建模才干很弱。依据总结，我们提出运用一个低阶的2-gram模型（并加上若干裁剪）对ILM中止估量。在锻炼该2-gram模型时，我们仅运用音频匹配文本，这样使得2-gram应用的信息和RNN-T的真实ILM坚持分歧。

【语音之家】Interspeech2022论文解读 | LODR：一种更好 ...

在解码时，我们计算RNN-T系统得分、估量的ILM得分和ELM得分的加权和作为选取候选的依据，其中估量的ILM权重普通是负值（实践操作中，我们会对ILM权重和ELM权重参数做搜索，搜索时并不限制其符号，而结果显现ILM权重均为负值，ELM权重均为正值，这反过来也印证了“先减后加”的想法）。

由于我们提出的措施是基于density ratio战略的，并且主要特性是仅运用低阶的LM作为ILM近似，我们将这一措施称为low order density ratio（LODR）。

实验结果

数据方面，音频-文本匹配数据，我们运用了英文的960小时Librispeech和中文普通话Wenetspeech的1000小时子集作为RNN-T模型的锻炼数据；纯文本数据方面，英文中运用了Librispeech官方提供的额外语料（约800M词，锻炼集文本约9.4M词），中文实验中运用了来自CC100的中文语料（约200M字，锻炼集文本约17M字）。

【语音之家】Interspeech2022论文解读 | LODR：一种更好 ...