电子学报 ›› 2021, Vol. 49 ›› Issue (2): 248-259.DOI: 10.12263/DZXB.20190159

• 学术论文 • 上一篇    下一篇

基于错误驱动的语义文法自动扩展学习方法研究

王东升1, 王卫民1, 祁云松1, 王石2, 曹存根2   

  1. 1. 江苏科技大学计算机学院, 江苏镇江 212003;
    2. 中国科学院计算技术研究所中科院智能信息处理重点实验室, 北京 100190
  • 收稿日期:2019-01-28 修回日期:2020-11-03 出版日期:2021-02-25
    • 作者简介:
    • 王东升 男,1982年生,江苏盐城人,现为江苏科技大学计算机学院副教授.主要研究方向为问答系统、知识图谱和自然语言处理.E-mail:jsjxy_wds@just.edu.cn;王卫民 男,1977年生,浙江绍兴人,现为江苏科技大学计算机学院讲师、博士.主要研究方向为问答系统和自然语言处理.E-mail:wangweimin@just.edu.cn;祁云嵩 男,1967年生,江苏如皋人,博士,现为江苏科技大学计算机学院教授.主要研究方向机器学习理论与应用,装备综合保障.E-mail:mailqys@163.com;王石 男,1981年生,山东博兴人,现为中国科学院计算技术研究所智能信息处理重点实验室副研究员.主要研究方向为问答系统、知识图谱和自然语言处理.E-mail:wangshi@ict.ac.cn;曹存根 男,1964年生,江苏东台人,现为中国科学院计算技术研究所智能信息处理重点实验室研究员.主要研究方向为大规模知识工程.E-mail:cgcao@ict.ac.cn
    • 基金资助:
    • 国家自然科学基金 (No.61702234); 科技部重点研发项目 (No.2017YFC1700302)

Automatic Error-driven Learning Method of Semantic Grammar

WANG Dong-sheng1, WANG Wei-min1, QI Yun-song1, WANG Shi2, CAO Cun-gen2   

  1. 1. School of Computer Science, Jiangsu University of Science of Technology, Zhenjiang, Jiangsu 212003, China;
    2. Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China
  • Received:2019-01-28 Revised:2020-11-03 Online:2021-02-25 Published:2021-02-25

摘要: 面向领域的自然语言理解技术是垂直搜索引擎、领域相关问答系统等应用的核心技术之一.本文在已构建的基于本体和语义文法的自然语言理解系统的基础上,提出一种基于错误驱动的语义文法自动扩展学习方法,对于解析错误的句子,利用核心文法生成部分解析树,按照打分函数选择一组最佳的部分解析树,利用预测模型预测部分解析树的上层节点并试图构建完整的解析树,从而学习得到新的文法规则,对于学习得到的不同类型的规则进行验证并更新核心文法库,通过对句子的可学习性度量来筛选学习对象,从而提高文法扩展学习的整体质量和效率.分别在两个不同规模的领域数据集进行了测试,在交互式学习范式下,测试对比了学习算法在不同规模领域的学习效率,在批量学习范式下,测试对比了更新后的文法和核心文法在两个领域数据集上的准确率和识别率等性能指标.实验结果表明,本文所提出的方法是有效的.

 

关键词: 语义文法, 文法扩展, 自然语言理解, 领域, 本体

Abstract: Domain-specific natural language understanding technology is one of the core technology of vertical search engines,domain-specific question answering system and other applications.This research focus on a novel constrained semantic grammar and its automatic learning methods based on an existing domain-specific question answering system.An error-driven learning method of semantic grammar is proposed.The method first partially parses the ungrammatical sentence based on the core semantic grammar,then it attempts to build a complete parse tree,including predicting the top-level node of the partial parsing tree,generating and verifying hypotheses of new grammar rules.Learnability metrics is used to filter sentences in the training corpus to improve the overall quality and efficiency of grammar extending algorithm.The proposed algorithm is applied to two domains of different scales.In the interactive learning paradigm,learning efficiency are compared in different domains.In the batch learning paradigm,the paper compares the accuracy,MRR and recognition rate of the extended grammar and core grammar on twodatasets.The test results show that the proposed method is effective.

 

Key words: semantic grammar, grammar extending, natural language understanding, domain specific, ontology

中图分类号: