一、引言 小编新接触语音SDK项目,SDK无UI、底层调用多个C++算法库、提供的是AI效劳。语音AI项目,辨认效果是至关重要的一环, 辨认效果评测也是一项测试重点。 为了制定一个专业、全面的效果评测的计划,小编学习了相关学问,对计划制定有了初步思绪。希望对测试小同伴有所辅佐~~(●—●) 二、ASR流程、系统结构、评测指标及评测模型 语音辨认,也被称自动语音辨认,所要处置的问题是让机器能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来,相当于给机器装置上“耳朵”,使其具备“能听”的功用。 3、ASR评测模型 评测模型,各家评测模型异曲同工。下图参考为例: 首先要有测试的数据集,测试的数据集也是有一段音频和标注。标注的就是标注音频内容,说的是什么。留意:评测的数据集和锻炼的数据集是严厉隔离的。 (1). WER 字错误率 公式为: N——单词数目(标注中含有字数总和) 结果比较示例: (2). SER句错误率 其计算公式如下所示: 三、ASR评测影响要素 影响到精确率的要素逐步增加,其中主要要素有以下几种: 上述四项中,前三项与声学模型相关,第四项与言语模型有关。 (1). 声音来源(人声 录音声 广播声 耳机 麦克风 单/双通道/平面声) (2). 语种分类(普通话 方言 英语 小语种 混合言语) (3). 语音内容/范畴(日常话语 非日常话语)【不同行业 不同场景】 (4). 音色(男音 女音)【不同年龄段的男/女音:儿童 少年 中年 老年】 (5). 环境(室内 室外 公共场所 宁静 喧哗 回音) (6). 音量(分贝值大 小 时大时小) (7). 语音方式(哼唱 断断续续 正常说话 咬字不清) (8). 语速(快 中等 慢 时快时慢) (9). 录入语音时长(0秒 1秒 1分钟内 >1分钟) (10).对话方式(距离 连续 单人 多人) (11).特殊发音(好比普通话中sh与s ping与pin l与n f与h) 四、ASR评测计划制定 评测计划细致设计流程 (1). 了解业务逻辑、完成流程,和针对细致评测项目的主流措施; (2). 设计专项评测计划; (3). 组内依据计划设计文档中止讨论、弥补;与相关项目组成员组会沟通,确保一切内容的认知达成分歧,且对评测计划认可经过; (4). 完成专项评测计划,并撰写评测讲演; (5). 依据需求变更或者版本变更定期更新维护专项评测。 1、ASR评测计划设计——肯定测试场景(简单举例) 思索评测的各种影响要素,需求先肯定某些维度(下例),制定一个测试场景评测: 肯定:语种分类(普通话)、声音来源(人声录音)、对话方式(单人)、语音内容(日常话语)、音色(青年女音)、语音方式(正常说话)、语速(中等)、录入语音时长(2分钟) 距离 声源和麦克风之间的距离 角度 声源和麦克风之间的角度 中等语速 每分钟字数大约150左右 2、ASR评测计划设计——肯定测试规范(简单举例) 3、ASR评测计划设计——制备输语料、选取数据集 目前现状:标注数据集,数量有限,扩展、更新慢; 评测集拓展:新的语料来源:自己录制;调研用户top N的数据内容类型;搜集频的badcase; 4、ASR评测计划执行——过程设计 小编所在项目的ASR评测需求基于语音SDK中止,细致执行计划还在修订,遇到的问题和处置计划,小编在理论总结后再总结分享~~ 注:参考 MTSC2019 |