↑点开查看清晰大图 综述 量子自然语言处理: 历史演变与新进展 作 者:樊子鹏,张 鹏,高 珲 摘 要:近些年来,量子自然语言处理作为量子力学和自然语言处理两个领域的交叉研究领域,逐渐受到研究者的重视,并出现了大量关于量子自然语言处理的模型和算法。该文旨在综述当前量子自然语言处理领域的研究动机、研究方法以及相关研究进展。首先简要概述了当前经典算法的问题和研究者将量子力学与自然语言处理相结合的两种研究思路;然后从自然语言处理的语义空间、语义建模和语义交互三个方面,详细阐述量子力学在其中所起到的重要作用,通过分析量子计算平台和经典计算平台在存储资源和运行复杂度两个方面上的差异,证明将量子自然语言处理算法部署到量子计算平台上的必要性;最后对当前量子自然语言处理算法进行列举,并提出该领域可能的发展方向,供研究者进一步展开研究。 关键词:量子力学;自然语言处理 引用格式:樊子鹏,张鹏, 高珲. 量子自然语言处理: 历史演变与新进展. 中文信息学报. 2023, 37(1): 1-15. FAN Zipeng, ZHANG Peng, GAO Hui.A Survey of Quantum Natural Language Processing: Evolution and Progress[J]. Journal of Chinese Information Processing, 2023, 37(1): 1-15. 全文链接:点击下载 语言资源建设与应用 一种改进的汉语语义角色分类体系与标注实践 作 者:宋 衡, 曹存根, 王 亚, 王 石 摘要:语义角色标注是自然语言处理中的一项重要任务,涉及文本挖掘、神经网络学习、统计语言学等多个研究领域。在对一个汉语语料库进行语义角色分析时,发现现有的汉语语义角色体系存在一定的局限性。通过引入新的语义角色、吸收和重新定义现有语义角色体系中的语义角色,该文提出了一种改进的汉语语义角色分类体系。该语义角色分类体系将事件中的语义角色分为两大类,即中枢语义角色和周边语义角色,其中,周边语义角色可进一步被细分为主要周边语义角色和辅助周边语义角色。为了减少语义理解的主观性从而客观地判断语义角色类型,该文基于语义和句式以“判断标准-相应例句”的形式详细解释了语义角色分类体系中的主要周边语义角色,并从中枢语义角色半自动化判断、复合动词作中枢语义角色处理、易混淆语义角色难点分析和辅助周边语义角色标注规定等多个方面给出了提高语义角色标注一致性的说明。最后,根据提出的语义角色分类体系对实验语料库进行了语义角色的标注实践,分析了标注一致性,统计了新提出和重定义的主要周边语义角色在语料库中的分布情况,并与基于鲁川语义角色分类体系得到的标注结果进行了对比。 关键词:汉语语义角色分类体系;知识抽取;文本挖掘;浅层语义分析;语料库 引用格式:宋衡,曹存根,王亚,王石. 一种改进的汉语语义角色分类体系与标注实践. 中文信息学报. 2023, 37(1): 16-32. SONG Heng, CAO Cungen, WANG Ya, WANG Shi. A Fine-Grained Annotated Dataset for Chinese Semantic-Role Labeling[J]. Journal of Chinese Information Processing, 2023, 37(1): 16-32. 全文链接:点击下载 基于主动学习与众包的农业知识标注体系及语料库构建 作 者:姜京池,关昌赫, 刘 劼,关 毅,柯善风 摘 要:农业书籍与网络知识库作为领域专家撰写的蕴含了大量农学常识与农事经验的数据源,具有高可信、知识丰富、结构规范等特点。为了挖掘此类文本源中的农学知识,该文讨论了农业命名实体和实体关系的相关问题,首次提出了主动学习与众包相结合的农业知识标注体系。在农学专家的指导和参与下,构建了包含9类实体以及15大类、37小类语义关系的多源农业知识标注语料库,其中农业书籍源共3.7万个实体、3.5万个实体关系,百度百科源含1.1万个实体以及1.5万个实体关系。在实验部分,我们利用标注一致性评价标准对比了两类数据源的标注质量,并从实体识别、关系抽取两个方面证明了主动学习能够节约标注成本、提升标注效率和模型训练效果,为后续研究打下了坚实基础。 关键词:语料构建;农业知识图谱;标注体系 引用格式:姜京池,关昌赫,刘劼,关毅,柯善风. 基于主动学习与众包的农业知识标注体系及语料库构建. 中文信息学报. 2023, 37(1): 33-45. JIANG Jingchi, GUAN Changhe, LIU Jie, GUAN Yi, KE Shanfeng. Annotation Scheme and Corpus Construction for Agricultural Knowledge Based on Active Learning and Crowdsourcing[J]. Journal of Chinese Information Processing, 2023, 37(1): 33-45 . 全文链接:点击下载 知识表示与知识获取 OpenConcepts: 一个开放的细粒度中文概念知识图谱 作 者:叶宏彬,张宁豫,陈华钧,邓淑敏,毕 祯,陈 想 摘要:知识图谱是通过符号形式描述世界万物的实体及其之间的关联关系,是一种具备强大知识处理能力的大规模语义网络。概念知识图谱是一种特殊的知识图谱,在语义搜索、自动问答等场景具有广泛的应用价值。之前的概念图谱较难覆盖长尾实体,且存在概念粒度较粗和更新困难等问题。针对这些问题,该文提出了一种全新的自动化概念图谱构建方法,能够自动地从海量文本及半结构化数据中构建细粒度的中文概念层次结构,还发布了一个开放的细粒度中文概念知识图谱OpenConcepts,包含440万概念核心实例,5万多个细粒度概念和1 300万概念-实例三元组,并提供相应的调用接口。 关键词:知识图谱;三元组抽取;关系分类 引用格式:叶宏彬,张宁豫,陈华钧,邓淑敏,毕祯,陈想. OpenConcepts: 一个开放的细粒度中文概念知识图谱. 中文信息学报. 2023, 37(1): 46-53. YE Hongbin, ZHANG Ningyu, CHEN Huajun, DENG Shumin, BI Zhen, CHEN Xiang. OpenConcepts: A Public Available Fine-Grained Chinese Concept Knowledge Graph[J]. Journal of Chinese Information Processing, 2023, 37(1): 46-53 . 全文链接:点击下载 结合多重嵌入表示的中文知识图谱补全 作 者:陈跃鹤,谈川源,陈文亮,贾永辉,何正球 摘要:近年来,随着知识图谱相关技术的不断发展,各方面研究对知识图谱本身的需求也不断加强。然而现有的知识图谱无法完全覆盖整个真实世界,同时在知识正确性以及时效性等方面存在问题,这使得知识图谱补全越来越受到研究者的关注。在中文环境下,知识图谱补全任务又呈现出与英文图谱补全任务不同的特性。该文对中/英知识图谱补全任务进行了对比分析,将中文图谱中出现的错误进行了归类。根据该分析结果,该文提出将三元组中实体和关系嵌入表示、实体和关系描述文本嵌入表示结合的链接预测方法MER-Tuck,该方法利用外部的语义补充来加强矩阵分解模型的学习能力。为了验证该方法的有效性,该文为中文知识图谱补全任务构建了新数据集。在该数据集上将该文的方法与主流的链接预测方法进行比较,实验结果表明该文所提方法是有效的。 关键词:知识图谱;知识图谱补全;链接预测 引用格式:陈跃鹤,谈川源,陈文亮,贾永辉,何正球. 结合多重嵌入表示的中文知识图谱补全. 中文信息学报. 2023, 37(1): 54-63. CHEN Yuehe,TAN Chuanyuan,CHEN Wenliang,JIA Yonghui,HE Zhengqiu. Chinese Knowledge Graph Complementation with Multiple Embeddings[J]. Journal of Chinese Information Processing, 2023, 37(1): 54-63. 全文链接:点击下载 民族、跨境及周边语言信息处理 藏文文本分类特征基元选择 作 者:才智杰, 道吉扎西 摘 要:文本分类是指根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文档按内容自动确定某种类别的技术,是自然语言处理中最基本、最重要的研究内容之一,在信息检索、智能推荐、舆情分析、新闻分类等领域具有极高的应用价值。现阶段,藏文文本分类的主要研究集中在借用英汉等语言文本分类技术构建分类器,英汉等语言以词做分类特征基元构建分类器。由于受藏文分词技术制约,直接以词做藏文文本分类特征基元,其性能有较大的影响。该文在分析文本分类流程及藏文文本构成的基础上,研究了藏文文本分类特征基元选择方法,提出了一种融合词和音节的藏文文本分类特征基元选择方法,并以CNN模型构建的分类器验证了该方法的有效性。 关键词:自然语言处理;藏文;基元;文本分类 引用格式:才智杰,道吉扎西. 藏文文本分类特征基元选择. 中文信息学报. 2023, 37(1): 64-70. CAI Zhijie, DAO Jizhaxi.Feature Primitives Selection for Tibetan Text Classification[J]. Journal of Chinese Information Processing, 2023, 37(1): 64-70. 全文链接:点击下载 基于I-Vector特征融合的蒙古语说话人特征提取方法 作 者:韩佳俊,马志强,王洪彬,谢秀兰 关键词:I-Vector;说话人自适应;特征提取;蒙古语;低资源 引用格式:韩佳俊,马志强,王洪彬,谢秀兰. 基于I-Vector特征融合的蒙古语说话人特征提取方法. 中文信息学报. 2023, 37(1): 71-78. HAN Jiajun,MA Zhiqiang,WANG Hongbin,XIE Xiulan. A Speaker Feature Extraction Method Based on I-vector Resource Fusion[J]. Journal of Chinese Information Processing, 2023, 37(1): 71-78 . 全文链接:点击下载 融合语义信息的汉老双语句子对齐方法 作 者:谭琪辉,周兰江,张建安 摘 要:双语句子对齐能够为机器翻译、信息检索等跨语言领域任务提供高质量的平行语料,在低资源的老挝语自然语言处理研究中显得尤为重要。由于汉老双语文本中存在非单调对齐(交叉对齐和空对齐)的情况,容易影响汉老句子对齐的效果。此外,人名、地名作为新闻要素,大多属于未登录词,也给汉老句子对齐研究增加了难度。该文提出了一种融合局部和全局语义信息的汉老双语句子对齐方法。首先,将汉老双语句长特征和人名地名特征融入Glove词向量,然后利用双向门控循环单元对特征词向量进行编码,以得到更细粒度的句子局部信息。其次,引入交互注意力机制,提取双语句子中的全局信息,保证对上下文语义特征的有效利用。最后,在多层感知机的基础上引入KM算法,该方法可以处理非单调对齐文本,提高模型的泛化能力。实验结果表明,该方法显著提高了汉老双语新闻语料的对齐性能。 关键词:汉老双语句子对齐;语义信息;双向门控循环单元;注意力机制 引用格式:徐遥,何世柱,刘康,张弛,焦飞,赵军. 基于Beta分布和半监督学习的非确定性知识图谱嵌入模型[J]. 中文信息学报, 2022, 36(10): 54-62. XU Yao, HE Shizhu, LIU Kang, ZHANG Chi, JIAO Fei, ZHAO Jun. Uncertain Knowledge Graph Embedding by Beta Distribution and Semi-supervised Learning[J]. Journal of Chinese Information Processing, 2022, 36(1): 54-62 . 全文链接:点击下载 信息抽取与文本挖掘 多策略中文开放关系抽取方法 作 者:温清华,朱洪银,侯 磊,李涓子 关键词:开放关系抽取;多策略;知识图谱 引用格式:温清华,朱洪银,侯磊,李涓子. 多策略中文开放关系抽取方法. 中文信息学报. 2023, 37(1): 88-96. WEN Qinghua,ZHU Hongyin,HOU Lei,LI Juanzi. A Multi-strategy Approach to Chinese Open Relation Extraction[J]. Journal of Chinese Information Processing, 2023, 37(1): 88-96 . 全文链接:点击下载 基于加权层级注意力机制的疾病预测模型 作 者:单文琦,王 波,黄青松,刘利军,黄 冕 摘 要:近年来,针对电子病历文本的研究受到越来越多的关注,而相关疾病预测模型很少注意到病历文本中记录独立分布的半结构化形式以及语义关系复杂的特点,故该文提出了一种基于加权层级注意力机制的辅助诊断方法,设计加权累加法将普通句向量转换为结构弱关联句向量,并构成词、句、文档层级结构注意力机制来提高模型结构学习能力,此外,设计监督层用于缓解语义关系复杂造成的学习偏置问题,以辅助模型的训练效果。在真实数据集中进行验证表明,该文模型优于当前主流的深度学习模型,取得了较好效果。 关键词:累加法;注意力机制;层级结构;辅助诊断 引用格式:单文琦,王波,黄青松,刘利军,黄冕. 基于加权层级注意力机制的疾病预测模型. 中文信息学报. 2023, 37(1): 97-103. SHAN Wenqi,WANG Bo,HUANG Qingsong,LIU Lijun,HUANG Mian. Disease Prediction Based on Weighted Hierarchical Attention Mechanism[J]. Journal of Chinese Information Processing, 2023, 37(1): 97-103 . 全文链接:点击下载 问答与对话 基于多粒度交互推理的答案选择方法研究 作 者:金志凌,朱鸿雨,苏玉兰,唐竑轩,洪 宇,张 民 摘 要:预训练语言模型已经广泛应用于不同自然语言处理任务,其蕴含的自注意力机制能够在“文本对子”之上形成统一的语义编码表示,从而使BERT模型的输入结构和运算模式理论上适用于处理“目标问题和候选答案”样本。然而,直接应用BERT等语言模型将面临两种局限性: ①BERT并不侧重词块、短语和子句的独立语义信息表示,使得文本在匹配过程中往往错失不同颗粒度语义相关性的感知;②BERT中的多头注意力机制不能在不同粒度的语义结构之间计算交互强度(相关性)。针对上述问题,该文提出一种基于BERT的多粒度交互推理网络,该方法将问题与候选答案的语言信息进行多粒度语义编码,丰富了句子间的语义信息与交互性。此外,该文提出句子级的编码损失策略,借以提高编码过程对关键子句的加权能力。在WPQA数据集上的实验结果显示,该方法有效提高了非事实性问题的答案选择性能。 关键词:答案选择;预训练模型;多粒度编码 引用格式:金志凌,朱鸿雨,苏玉兰,唐竑轩,洪宇,张民. 基于多粒度交互推理的答案选择方法研究. 中文信息学报. 2023, 37(1): 104-111,120. JIN Zhiling,ZHU Hongyu,SU Yulan,TANG Hongxuan,HONG Yu,ZHANG Min. Multi-granular Interactive Inference Based Answer Selection[J]. Journal of Chinese Information Processing, 2023, 37(1): 104-111,120. 全文链接:点击下载 面向医疗咨询的复杂问句意图智能理解 作 者:孙 斌,常开志,李树涛 关键词:意图理解;问句规范化;人机问答T 引用格式:孙斌,常开志,李树涛. 面向医疗咨询的复杂问句意图智能理解. 中文信息学报. 2023, 37(1): 112-120. SUN Bin,CHANG Kaizhi,LI Shutao. Complex Question Intention Understanding for Medical Consultation[J]. Journal of Chinese Information Processing, 2023, 37(1): 112-120 . 全文链接:点击下载 信息增强的医患对话理解 作 者:张智林,陈文亮 关键词:医患对话理解;特征增强;语义融合 引用格式:张智林,陈文亮. 信息增强的医患对话理解. 中文信息学报. 2023, 37(1): 121-131. ZHANG Zhilin,CHEN Wenliang. Information-enhanced Understanding of the Doctor-patient Dialogue[J]. Journal of Chinese Information Processing, 2023, 37(1): 121-131. 全文链接:点击下载 情感分析与社会计算 融合高频属性信息的属性抽取研究 作 者:潘雨晨,尉桢楷,洪 宇,徐庆婷,姚建民 关键词:属性抽取;高频属性;门控机制 引用格式:潘雨晨,尉桢楷,洪宇,徐庆婷,姚建民. 融合高频属性信息的属性抽取研究. 中文信息学报. 2023, 37(1): 132-143. PAN Yuchen,YU Zhenkai,HONG Yu,XU Qingting,YAO Jianmin.Aspect Extraction via High-Frequency Aspects[J]. Journal of Chinese Information Processing, 2023, 37(1): 132-143 . 全文链接:点击下载 基于情感信息的商品评论生成式摘要 作 者:冯仁杰,王中卿 摘 要:近些年来,随着电商平台的飞速发展,越来越多的人会选择在网上购物并且对商品进行评价。对于较长篇幅的评论,进行摘要可以让用户快速地了解到商品的优缺点。目前主流的生成式摘要模型大多只考虑文本的序列化信息,而对一个商品评论来说,评论中的商品属性信息和情感信息极为重要。为了让模型学习到评论中的商品属性及情感信息,该文提出了一种融合评论中属性及情感信息的生成式摘要方法。该方法通过将不同种类的情感和属性信息嵌入生成模型的编码阶段的方式,从而有效的结合这些信息。实验证明,该方法可生成更高质量的摘要,生成的摘要在ROUGE评价指标上会有较大幅度的提升。 关键词:生成式文摘;情感及属性信息;神经网络 引用格式:冯仁杰,王中卿. 基于情感信息的商品评论生成式摘要. 中文信息学报. 2023, 37(1): 144-152. FENG Renjie,WANG Zhongqing. Generative Review Summarization Using Sentimental Information[J]. Journal of Chinese Information Processing, 2023, 37(): 144-152. 全文链接:点击下载 基于动态记忆案件描述的涉案微博评论讽刺句检测方法 作 者:谭陈琛,余正涛,相 艳,黄于欣,郭军军 摘 要:涉案微博评论讽刺句检测的难点在于评论句字面语义与实际情感存在着较大差异,仅利用评论本身的特征难以判断,而涉案微博正文是案件的事实性描述,可以将其作为评论讽刺句检测的依据。为此,该文提出一种基于动态记忆案件描述的讽刺检测方法。首先利用动态记忆机制对微博正文进行案件特征抽取,其次利用注意力机制获得评论句特征,并与案件特征进行一致性比较,最后基于比较的特征进行讽刺句分类。实验结果表明,该文所提出方法的准确率和F1值分别达到85.65%和85.91%,较基线模型有较大提升,验证了案件描述对涉案微博评论讽刺句检测有很好的支撑作用。 关键词:涉案微博;讽刺句检测;案件描述;动态记忆机制 引用格式:谭陈琛,余正涛,相艳,黄于欣,郭军军. 基于动态记忆案件描述的涉案微博评论讽刺句检测方法. 中文信息学报. 2023, 37(1): 153-159,168. TAN Chenchen,YU Zhengtao,XIANG Yan,HUANG Yuxin,Guo Junjun. Dynamic Memory Case Deion Based Sarcasm Detection in Case-related Microblog Comments[J]. Journal of Chinese Information Processing, 2023, 37(1): 153-159,168 . 全文链接:点击下载 语音信息处理 作 者:郭 旭,祁瑞华 摘 要:为了提高作者识别的跨领域鲁棒性,解决作者写作规律在不同领域间的迁移问题,该文首先通过分析和实验发现: 名词具有较高的领域相关性。然后,采用文本变形算法将名词掩盖掉,以此来降低相关特征的权重,从而迫使机器学习算法选择领域关联度更低的特征拟合样本,进而提高模型的泛化能力。在由21 953个样本组成的跨领域作者识别的实验中,该文分别采用了基于字N-gram、基于BERT和基于集成学习的三种典型作者识别方法,对比了无掩盖和掩盖名词、形容词、动词、副词、功能词的作者识别,其中掩盖名词后的作者识别方法获得了较高的评价指标。实验结果表明,掩盖名词的方法可以提高作者识别的跨领域鲁棒性。 关键词:作者识别;跨领域;迁移学习;掩盖名词 引用格式:郭旭,祁瑞华. 基于名词掩盖的跨领域作者识别研究. 中文信息学报. 2023, 37(1): 160-168. GUO Xu, QI Ruihua. Cross-Domain Authorship Attribution via Noun-maksing[J]. Journal of Chinese Information Processing, 2023, 37(1): 160-168. 全文链接:点击下载 眼动记录与主旨结构标注的关联性分析研究 作 者:单昊聪,周 强 摘 要:给定包含主旨概括句的汉语句群,针对该句群的内部结构标注是基于语言学的分析结果,而阅读句群时的眼动轨迹则蕴含着人的心理认知,两者的信息融合和内在关联性分析是该文主要工作。该文使用基于径向基函数支持向量机和递归特征消除的分类模型,根据标点小句片段对应的眼动指标数据预测该片段是否为包含主旨内容的关键信息,达到了0.76的准确率,并通过分析关键片段上眼动数据的分布特点,提取出对句群主旨概括信息区分度较好的眼动指标。 关键词:眼动记录;文本结构标注;支持向量机 引用格式:单昊聪,周强. 眼动记录与主旨结构标注的关联性分析研究. 中文信息学报. 2023, 37(1): 169-178. SHAN Haocong, ZHOU Qiang. Research on the Correlation Between Eye Movement and Thematic Structure Label[J]. Journal of Chinese Information Processing, 2023, 37(1): 169-178 . 全文链接:点击下载 ↑点开查看清晰大图 今日责编:壮壮 |