电子学报 ›› 2021, Vol. 49 ›› Issue (6): 1059-1067.DOI: 10.12263/DZXB.20200134

• 学术论文 • 上一篇    下一篇

基于组合-卷积神经网络的中文新闻文本分类

张昱1,2, 刘开峰1, 张全新3, 王艳歌1, 高凯龙1   

  1. 1. 北京建筑大学电气与信息工程学院&建筑大数据智能处理方法研究北京市重点实验室, 北京 100044;
    2. 中国矿业大学深部岩土力学与地下工程国家重点实验室, 北京 100083;
    3. 北京理工大学计算机科学与技术学院, 北京 100081
  • 收稿日期:2020-02-03 修回日期:2020-04-05 出版日期:2021-06-25 发布日期:2022-06-25
  • 通讯作者: 刘开峰(通讯作者) 男,1996年1月生于江苏淮安.北京建筑大学电气与信息工程学院硕士研究生,主要研究方向为大数据、城市计算与人工智能.E-mail:bigdata@bucea.edu.cn
  • 作者简介:张昱 男,1979年1月生于内蒙古呼和浩特.毕业于北京理工大学获博士学位,现为北京建筑大学电气与信息工程学院副教授、硕士生导师,主要研究方向为大数据、人工智能与岩爆.E-mail:yuzhang@bucea.edu.cn;张全新 男,1974年生于山东.2003年毕业于北京理工大学获博士学位,美国康涅狄洛大学访问学者,现为北京理工大学计算机学院讲师,主要研究方向为计算机网络、机器学习.E-mail:zhangqx@bit.edu.cn;王艳歌 女,1994年7月生于河北衡水.北京建筑大学电气与信息工程学院硕士研究生,主要研究方向为大数据、数据融合、可视分析.E-mail:yangechn@126.com;高凯龙 男,1996年5月出生于河北石家庄.北京建筑大学电气与信息工程学院硕士研究生,主要研究方向为大数据、城市计算与人工智能.E-mail:2489681545@qq.com
  • 基金资助:
    北京建筑大学优秀主讲教师培育计划(No.21082718041);国家重点研发计划(No.2016YFC0600901);教育部2018产学合作协同育人项目(No.201801113001);市属高校基本科研业务费(No.30850919027);北京建筑大学研究生创新项目(No.PG2020051)

A Combined-Convolutional Neural Network for Chinese News Text Classification

ZHANG Yu1,2, LIU Kai-feng1, ZHANG Quan-xin3, WANG Yan-ge1, GAO Kai-long1   

  1. 1. School of Electrical and Information Engineering & Beijing Key Laboratory of Intelligent Processing for Building Big Data, Beijing University of Civil Engineering and Architecture, Beijing 100044, China;
    2. State Key Laboratory in China for Geo Mechanics and Deep Underground Engineering, China University of Mining & Technology, Beijing 100083, China;
    3. School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081, China
  • Received:2020-02-03 Revised:2020-04-05 Online:2021-06-25 Published:2022-06-25

摘要: 目前的新闻分类研究以英文居多,而且常用的传统机器学习方法在长文本处理方面,存在局部文本块特征提取不完善的问题.为了解决中文新闻分类缺乏专门术语集的问题,采用构造数据索引的方法,制作了适合中文新闻分类的词汇表,并结合word2vec预训练词向量进行文本特征构建.为了解决特征提取不完善的问题,通过改进经典卷积神经网络模型结构,研究不同的卷积和池化操作对分类结果的影响.为提高新闻文本分类的精确率,本文提出并实现了一种组合-卷积神经网络模型,设计了有效的模型正则化和优化方法.实验结果表明,组合-卷积神经网络模型对中文新闻文本分类的精确率达到93.69%,相比最优的传统机器学习方法和经典卷积神经网络模型精确率分别提升6.34%和1.19%,并在召回率和F值两项指标上均优于对比模型.

关键词: 自然语言处理, 词向量, 组合-卷积神经网络, 中文新闻, 文本分类

Abstract: At present,most of the researches on news classification are in English,and the traditional machine learning methods have a problem of incomplete extraction of local text block features in long text processing.In order to solve the problem of lack of special term set for Chinese news classification,a vocabulary suitable for Chinese text classification is made by constructing a data index method,and the text feature construction is combined with word2vec pre-trained word vector.In order to solve the problem of incomplete feature extraction,the effects of different convolution and pooling operations on the classification results are studied by improving the structure of classical convolution neural network model.In order to improve the precision of Chinese news text classification,this paper proposes and implements a combined-convolution neural network model,and designs an effective method of model regularization and optimization.The experimental results show that the precision of the combined-convolutional neural network model for Chinese news text classification reaches 93.69%,which is 6.34% and 1.19% higher than the best traditional machine learning method and classic convolutional neural network model,and it is better than the comparison model in recall and F-measure.

Key words: natural language processing, word vector, combined-convolutional neural network, Chinese news, text classification

中图分类号: