自然语言处理:技术与应用
知识库问答(Knowledge Base Question Answering,KBQA)借助知识库中精度高、关联性强的结构化知识,为给定的复杂事实型问句提供准确、简短的答案.语义解析是知识库问答的主流方法之一,该类方法在给定的问句语义表征形式下,将非结构化的问句映射为结构化的语义表征,再将其改写为知识库查询获取答案.目前,面向知识库问答的语义解析方法主要面临三个挑战:首先是如何选择合适的语义表征形式以表达问句的语义,然后是如何解析问句的复杂语义并输出相应的语义表征,最后是如何应对特定领域中数据标注成本高昂、高质量数据匮乏的问题.本文从上述挑战出发,分析了知识库问答中常用的语义表征的特点与不足,然后梳理现有方法并总结分析其如何应对问句的复杂语义,接着介绍了当前方法在标注数据匮乏的低资源场景下的尝试,最后展望并讨论了面向知识库问答的语义解析的未来发展方向.
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息.
对话状态跟踪是任务型对话系统的重要模块.已有研究使用注意力机制模拟图结构来引入历史信息,但这种方法无法显式利用对话状态的结构性.此外,如何生成复杂格式的对话状态也为研究带来了挑战.针对以上问题,本文提出一种状态记忆图网络SMGN(State Memory Graph Network).该网络通过状态记忆图保存历史对话信息,并使用图结构与当前对话进行特征交互.本文还设计了一种基于状态记忆图的复杂对话状态生成方法.实验结果表明,本文提出的方法在CrossWOZ数据集上联合正确率提高1.39%,在MultiWOZ数据集上提高1.86%.
对话讽刺识别已经成为人工智能领域中一项极具挑战性的课题,其目的是辨别互动对话中晦涩难懂的诸如讽刺、轻蔑、嘲笑等隐喻性情感.从语言哲学分析,目前的对话讽刺识别方法难以衡量人类语言在讽刺表达与理解方面固有的不确定性.鉴于量子概率在建模不确定性方面的优势,本文探索量子概率在讽刺识别领域的潜力并提出一种量子概率启发式网络.该网络主要包含复值嵌入层、量子复合层、量子测量层以及全连接层.本文将互动对话中每句话语视作是一组单词的类量子叠加,表征为复数向量.相邻话语之间的上下文交互被建模为量子系统与其周围环境的复合,表示为密度矩阵.本文对每句话语进行量子测量,提取讽刺特征,并将讽刺特征输入到全连接层预测得到讽刺识别结果.本文在两个基准数据集上进行实验,结果表明本文提出的模型优于先进讽刺识别模型,讽刺识别准确率分别提升5.2%与2.38%.