名奢网 › 名表› 最新资讯 › 查看内容

《2022年机器翻译评测讲演》解读（下）

2022-11-23 20:17| 发布者: 夏梦飞雨| 查看: 102| 评论: 0

放大缩小

简介：近日，Intento公司与e2f公司协作发布《2022年机器翻译评测讲演》，从9个行业范畴、11个言语对评测了全球市场31个机器翻译引擎。该讲演旨在对机器翻译供给商的机器翻译性能中止深化洞察和剖析，为如何选择最合适的机 ...

近日，Intento公司与e2f公司协作发布《2022年机器翻译评测讲演》，从9个行业范畴、11个言语对评测了全球市场31个机器翻译引擎。该讲演旨在对机器翻译供给商的机器翻译性能中止深化洞察和剖析，为如何选择最合适的机器翻译引擎提供参考。

机器翻译评测措施

（一）自动评价机器翻译质量措施

hLEPOR-句法相似性：比较基于标记的n-grams的相似性。惩罚漏译和多译；惩罚意译/同义词；惩罚译文的不同长度。

BERTScore-语义相似性：剖析机器翻译的BERT分数和参考译文之间差距。不惩罚意译/同义词。关于BERT模型中代表性缺乏的范畴和术语来说，该评测措施可能是不牢靠的。

TER-句法相似性：评价机器翻译结果转化成参考译文所需求中止译后编辑（增加、删除、移位和交流）的次数。惩罚意译/同义词；惩罚译文的不同长度。

PRISM-语义相似性：对机器翻译结果转述为参考译文中止评价。惩罚流利性和充沛性错误；不惩罚意译/同义词；对韩语不适用。

COMET-语义相似性：运用来自机器翻译生成的译文，参考译文和源言语文本预测机器翻译质量。它应用这些表示来学习预测质量分数，该质量分数被显式优化以与人类对翻译质量的判别相关联。完成了最先进的与人工评测的相关性水平。可能会对意译/同义词中止惩罚。

SacreBLEU-句法相似性：比较机器翻译的结果与参考译文基于标记的相似性，并在整个语料库取平均值。惩罚漏译和多译；惩罚意译/同义词；惩罚译文的不同长度。

（二）讲演为什么选用COMET？

讲演对15个言语对和21个不同的机器翻译模型中止了研讨。其中，将几个自动评价措施与人工评测中止了比较，发往常15个言语对中的10个言语对中，COMET与人工评测的相关性优于其他评测措施。

《2022年机器翻译评测讲演》解读（下）

从上述皮尔森相关系数(Pearson correlation coefficient)能够看出，在英-德、英-葡、英-荷、英-法、英-西、英-朝鲜语言语对中, 相比BERTScore、hLEPOR、TER，COMET和人工评测的相关性更接近。

此外，在大多数状况下，COMET和人工评测有最好的相关性。从LQA Rating(Linguistic Quality Assurance Rating)言语质量保障指数中，能够看出相比BERTScore、 hLEPOR，TER，COMET和人工评测的相关系数更高。

《2022年机器翻译评测讲演》解读（下）

综上所述，讲演采用COMET中止机器翻译质量评测，是由于它与人工评测有更好的关联性。用该框架锻炼的模型在与人类判别的相关性方面显著优于其他自动评价措施。

机器翻译评测讲演剖析

（一）言语对

《2022年机器翻译评测讲演》解读（下）在基于言语对的评测中，有6个机器翻译引擎表示尤为突出，分别是谷歌、DeepL、Amazon、Yandex、Naver和有道。其中DeepL和谷歌二者分离即能够掩盖所选全部言语对。在英-中这一言语对中，谷歌和有道的表示最佳（不思索范畴）。能够发现，质量最高的机器翻译引擎基本上都是提供定制化效劳或术语支持的。

（二）范畴

《2022年机器翻译评测讲演》解读（下）

在基于范畴的评测中，有16个机器翻译引擎都在不同言语对、不同范畴中占领主导位置。在某些言语对中，占领主导位置的机器翻译较为单一（如英-荷）；但在英-西、英-中这两个言语对中，表示良好的机器翻译引擎明显较多；在英-中这一言语对中，综合各范畴来看，表示最好的依然是谷歌和有道。

《2022年机器翻译评测讲演》解读（下）

法律、金融、信息技术和医疗4个范畴性能最好的机器翻译引擎较为单一，因而需求谨慎选择供给商。文娱和口语范畴的评分普遍较低，入选的机器翻译仍需在这两个范畴中继续优化，提升其定制化功用。在所选机器翻译中，触及范畴最多的是谷歌和DeepL，但还有一些引擎只针对某一专业范畴，例如HiThink和XL8，HiThink只适用于金融范畴的英译中，XL8只适用于文娱范畴的英-西、英-法、英-韩翻译。

《2022年机器翻译评测讲演》解读（下）（三）最小掩盖范围