电子学报 ›› 2021, Vol. 49 ›› Issue (2): 401-407.DOI: 10.12263/DZXB.20200448

所属专题: 自然语言处理:技术与应用

• 科研通信 • 上一篇    下一篇

基于层次化修正框架的文本纠错模型

叶俊民, 罗达雄, 陈曙   

  1. 华中师范大学计算机学院, 湖北武汉 430079
  • 收稿日期:2020-05-13 修回日期:2020-08-02 出版日期:2021-02-25
    • 通讯作者:
    • 罗达雄
    • 作者简介:
    • 叶俊民 男,1965年10月出生于四川省成都市.2005年毕业于哈尔滨工程大学,博士,现为华中师范大学教授,博士生导师,当前研究方向为学习分析、软件工程.E-mail:jmye@mail.ccnu.edu.cn;陈曙 男,1981年1月出生于湖北省武汉市.2009年毕业于武汉大学,博士,现为华中师范大学计算机学院讲师,当前研究方向为软件工程和学习分析.E-mail:chenshu@ccnu.edu.cn
    • 基金资助:
    • 国家社会科学基金后期资助项目 (No.20FTQB020)

A Text Error Correction Model Based on Hierarchical Editing Framework

YE Jun-min, LUO Da-xiong, CHEN Shu   

  1. School of Computer Science, Central China Normal University, Wuhan, Hubei 430079, China
  • Received:2020-05-13 Revised:2020-08-02 Online:2021-02-25 Published:2021-02-25
    • Corresponding author:
    • LUO Da-xiong
    • Supported by:
    • National Social Science Fund  (NSSF) Late-stage Funded Project (No.20FTQB020)

摘要: 文本中存在的表达冗余、词汇误用和内容缺失等错误会显著影响文本语义的理解,当前解决上述文本错误的纠错模型存在两个主要的问题:当前的文本纠错模型主要基于编码器-解码器框架,解码速度较慢;许多工作将错误检测和修正分离成两个任务,没有形成统一的整体.为此,提出了一种基于层次化修正框架的文本纠错模型.首先,基于预训练模型建模得到文本的多种语义表示;其次,利用文本的语义表示识别出文本中错误的位置;最后,利用层次化修正框架计算精化的修正操作并完成对错误的修正.针对公开文本纠错数据集CONLL-14进行了相关实验,结果表明本文模型比所选取的对比模型有更快的解码速度和更高的召回率.

 

关键词: 文本纠错, 预训练模型, 层次化修正框架, 深度学习

Abstract: Redundant expressions, misuse of words, and missing content and other text errors can seriously affect the interpretation of text semantics. There exist two major problems with current text error correction models: The Encoder-Decoder based text error correction models have slow decoding speed; text error detection task and text correction task are handled as two separate tasks. Hence, a text error correction model based on a hierarchical editing framework is proposed in this paper. Firstly, a variety of text semantic representations are obtained through modelling pre-trained model. Secondly, text errors are located by using these text semantic representations. Finally, on the basis of hierarchical editing framework, precise editing operations are worked out to edit the errors. Experiments on the published text error correction dataset show that the proposed model has faster decoding speed and higher recall rate than comparison models.

 

Key words: text error correction, pre-trained model, hierarchical editing framework, deep learning

中图分类号: