AI 研习社按:7 月 28 日,由中国中文信息学会和中国计算机学会分离举行的第三届言语与智能高峰论坛于北京言语大学举行,Naturali 奇点机智团队作为 2018 机器阅读了解技术竞赛冠军团队,受邀参与本次活动的「机器阅读了解评测论坛及颁奖仪式」,Naturali 分离开创人兼 CTO、国际计算言语学协会会士(ACL Fellow)林德康作为代表中止了 2018 阅读了解技术竞赛系统讲演。 机器阅读了解任务不时是自然言语处置范畴的重要问题。2018 机器阅读了解技术竞赛提供了一个基于真实场景的大范围中文阅读了解百度数据集,共包含来自百度搜索的 30 万个来自真适用户的问题,对中文阅读了解系统提出了很大的应战。Naturali 的系统在正式测试集上 ROUGE-L 和 BLEU-4 分别抵达了 63.38 和 59.23,在 800 多支报名队伍、105 支提交最终结果的队伍中取得了第一名。 以下为 Naturali 奇点机智分离开创人兼 CTO 林德康在现场分享的竞赛讲演: 一、DuReader 阅读了解数据集的特性 往常有很多阅读了解问答数据集,百度数据集算是中文阅读了解数据集里最好的。百度数据集相比 Stanford 经典数据集 SQuAD 更真实、更具应战性。SQuAD 是从维基百科的信息来源集成问题,答案一定出往常文本里面,句法比较规范。而此次竞赛的百度数据集都是用户的真实提问,不只包含事实性的问题,还包含意见性的问题,部分问题在百度搜索里没有规范答案,并且问题的表白方式不一定很直接。 好比说意见性问题「iPhone X 好不好用」,或现象描画「响一声就说正在通话中」,这类问题回答起来难度更高。 二、竞赛题目实例 问题:昆特牌什么时分公测 人工标注答案:[‘时间为 6 月 6 日,暂定为期两周,即 6 月 6 日-6 月 19 日。'] Naturali 答案: [‘巫师之昆特牌国服山丘试炼开启时间为 6 月 6 日,暂定为期两周,即 6 月 6 日-6 月 19 日。’] 参考文档 ['文章 阅读','巫师之昆特牌山丘试炼马上开启了,帅编来通知大家开启时间。','巫师之昆特牌国服山丘试炼开启时间为 6 月 6 日,暂定为期两周,即 6 月 6 日-6 月 19 日。','参与过“青草试炼”的玩家将直接取得本次测试的资历,无需激活码。','国服公测时间暂未发布。','声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观念仅代表作者自己,不代表搜狐立场。','一款专为游戏动漫喜好者打造的 app 全面的资讯福利,抢手资讯图鉴攻略应有尽有。国内外抢手手游引荐,精彩不容错过。','itmo 爱萌游戏-二次元游戏第一门户 itmo 爱萌游戏是国内第一二次元游戏门户网站,努力于打造全新型的手机游戏网站。'] ['南方公园游戏在 U2 上放出了新的宣传片昆特牌公测日期发布南方公园游戏这都从去年 4 月延到今年 10 月不外动画 21 季今年 9 月开端播刚好能够衔接到游戏出卖日期','反正昆特牌打了一下午电脑一盘没赢我就放弃了','我巫师 3 二周目开端玩昆特牌,究竟一周目没钱,二周目也不继承。往常走到哪打到哪。','下周就公测?好忽然,这么快','昆特盘看测试录像,氪金也是凶猛啊。。。这南方公园居然跳票到这个时分。。','昆特牌国际服曾经激活就是看不懂挺等候南方公园的','等候 spOktoberfest! 另外希望昆特正式服早日上线','南方公园一听就是渣滓游戏,大家千万别买','应用吧活动,去领取','活动截止:2100-01-01','要不是川普赢了,也不至于这么跳票','昆特牌还没公测啊,我都以为大家曾经玩了良久了','打牌才是正事 打牌打到十一月玩高清二战 美滋滋’] 解析阐明:参考文档是从搜索引擎得到的排名靠前结果的网页全文,一个问题会对应多篇长文档;标注答案是人工依据文档总结撰写而成,一个问题可能对应多个答案,特别是对意见性的问题来说,有多个答案是很常见的。从以上案例可见,Naturali 阅读了解系统给出的答案比人工答案以至还要全面。 三、数据预处置 百度提供五个篇文章作为参考文档。由于文章没有长度限制,我们依据关键词密度,句子位置等信息将超越 500 词的文章紧缩到 500 词以内。 以下是我们数据预处置的细致措施:
四、模型整体结构 我们运用的模型整体结构,是经典的端对端阅读了解模型结构,分为四层: 第一层:特征表示层(Representation) 第二层:编码层(Encoding) 第三层:匹配层(Matching) 第四层:答案片段抽取层(Answer Span Extraction) 下面我们对每一层中止简单引见。 第一层:特征表示层 首先,给定一个问题的词序列和篇章的词序列,我们要对它中止特征抽取,将它变成一个特征向量序列。 我们是在搜狗互联网语料库上中止的预锻炼。这个数据集比百度数据集还要大好几个量级,一切中文网页都在里,每一词用什么向量表白就是在这里面锻炼的。 第二层:编码层 得到问题和篇章的向量特征表示序列后,我们分别中止编码。 第三层:匹配层 匹配层是模型比较中心的部分,我们应用留意力机制融合问题和篇章信息。 经过了几种模型的测试,最后我们的系统里用到了 Match-LSTM、BiDAF、DCA 这三种集成模型,相比其他模型,这几种模型效果接近,锻炼速度较快。在单一模型中我们运用 BiDAF,在集成模型中则会运用到不同的匹配层得到的结果中止集成。 第四层:答案片段抽取层 最终,我们应用指针网络中止答案抽取。 依据百度数据集特性,回答里面可能会包含多个答案,所以我们采用的是第二种应用多个参考答案的公式中止计算,即在多个答案上损失的平均数作为损失函数。 ● 常用损失函数 ● 应用多个参考答案 五、最小风险锻炼 通常的 RC 系统是以进步规范答案概率作为锻炼的目的,但实践评测的规范是 ROUGE。最小风险锻炼是拿评测的规范作为锻炼的目的,需求对每个片段都计算损失函数,所以优化的时间比较长。我们的系统首先用最大似然估量锻炼得到初始模型,然后直接优化 ROUGE 函数,让我们的 ROUGE 值抵达最高。这里 delta(y_i, y_i*) 是候选答案 y_i 与规范答案 y_i* 在 ROUGE 函数上的差。 ● 最小风险锻炼 ● 以最大似然估量锻炼得到的模型初始化继续锻炼 六、单一模型实验结果 我们的 ROUGE 分数最终能够远远超出基线系统分数,是经过篇章预处置、预锻炼词向量、其他特征、多个答案、分离锻炼、最小风险锻炼等措施综合累计得来的。 七、集成模型 我们提交的数据是经过集成模型计算出来的,最终依据不同种模型(BiDAF, MatchLSTM, DCA)和不同参数(Dropout:0.1, 0.15, 0.2,分离学习比率:4.0, 5.0)做成了一个集成模型,比单一模型的 ROUGE 分数又高出了 1.5 个点。 八、总结及瞻望 我们本次竞赛用的是神经网络端到端的系统,而我曾经在谷歌做搜索问答用的是模块化的系统。模块化系统会把问题分红几部分,首先辨认答案类型,再依据类型和问题、文本的匹配度去计算分数。而神经网络系统把一切的步骤放到一个网络里面,固然没有特地为不同的答案类型建模,但是锻炼完成后依旧能够掩盖到不同问题类型,好比问「什么时分......」,找的答案里就有日期。 相比模块化系统,神经网络端到端的系统代码简单很多,并且每次改动、优化都是全局的优化。但是模块化系统的优化,是优化某一个模块,模块之间曾经顺应了各自的缺陷,其中一个模块变好,其他模块不一定随之改善,使整个系统的优化会变得比较艰难。 目前有很多问答系统曾经上线了,但是背地的完成还是模块化的机制。很有可能神经网络系统往常的表示暂时还不迭模块化系统,但到现阶段它的精确度曾经能够有一些应用。好比我们做语音助手的时分,经常将搜索作为一个「兜底」的功用。好比在智能客服应用中,拿客服文档做关键词匹配,但用自动阅读了解就能够把阅读了解系统当做一个「兜底」,找到文档以后便能够把更精简、精确的答案找出来。 最后,假如有对我们的团队感兴味的同窗,欢送投简历到 jobs@naturali.io,等候你与我们一同,在 AI 语音交互这条路上共同前行。 谢谢大家。 附 Naturali 奇点机智简介: Naturali 创建于 2014 年 11 月,目前曾经将业务聚焦在两个方面:一个是 NI 开放平台——「零编码、五分钟 ,发明属于你的语音技艺」,为各类硬件、APP 赋予 AI 语音交互才干。另一个是一款带有学习功用的第三方语音助手 APP「布点语音」,曾经在各大安卓商店上线,目前曾经能够掩盖 300+APP,支持 12000+ 语音技艺。 |