电子学报 ›› 2019, Vol. 47 ›› Issue (10): 2228-2234.DOI: 10.3969/j.issn.0372-2112.2019.10.026

所属专题: 自然语言处理技术

• 科研通信 • 上一篇    下一篇

异构分类器堆叠泛化及其在恶意评论检测中的应用

吕品1, 于文兵2, 汪鑫1, 计春雷1, 周曦民3   

  1. 1. 上海电机学院电子信息学院 上海 201306;
    2. 上海电机学院文理学院 上海 201306;
    3. 上海超级计算中心 上海 201203
  • 收稿日期:2019-03-10 修回日期:2019-05-28 出版日期:2019-10-25
    • 作者简介:
    • 吕品 女,1973年3月出生,湖北鄂州人,现为上海电机学院副教授、博士,硕士生导师,研究方向为数据挖掘、情感分析与机器学习.E-mail:lvp@sdju.edu.cn;于文兵 男,1972年10月出生,湖北洪湖人,现为上海电机学院高级工程师、硕士,研究方向为智能计算、全光通信、光纤传感.E-mail:yuwb@sdju.edu.cn;汪鑫 男,1978年3月出生,安徽黟县人,现为上海电机学院衣讲师、硕士,研究方向为数据挖掘、云计算.E-mail:wangx@sdju.edu.cn;计春雷 男,1964年1月出生,上海人,现为上海电机学院教授、博士,硕士生导师,研究方向为大数据、数据挖掘.E-mail:jicl@sdju.edu.cn;周曦民 男,1961年2月出生,上海人,现为上海超级计算机中心主任、教授级高级工程师,上海大数据联盟副理事长,研究方向为信息安全、大数据与人工智能.E-mail:xmzhou@ssc.net.cn
    • 基金资助:
    • 上海市教育科学研究项目 (No.C17014); 上海电机学院计算机科学与技术优势学科 (No.16YSXK04)

Stacked Generalization of Heterogeneous Classifiers and Its Application in Toxic Comments Detection

Lü Pin1, YU Wen-bing2, WANG Xin1, JI Chun-lei1, ZHOU Xi-min3   

  1. 1. Shcool of Electronic Information Engineering, Shanghai Dianji University, Shanghai 201306, China;
    2. Shcool of Arts and Sciences, Shanghai Dianji University, Shanghai 201306, China;
    3. Shanghai Supercomputer Center, Shanghai 201203, China
  • Received:2019-03-10 Revised:2019-05-28 Online:2019-10-25 Published:2019-10-25
    • Supported by:
    • Shanghai Educational Science Research Project (No.C17014); Computer Science and Technology Preponderant Disciplines of Shanghai DianJi University (No.16YSXK04)

摘要: 恶意评论检测是预防社会媒体平台给用户带来负面影响的一项重要工作,是自然语言处理的重要领域之一.为解决单分类器实现恶意评论检测时模型精度不稳定、boosting集成模型精度较低的问题,提出一种异构分类器堆叠泛化的方法.该方法用深度循环神经网络将多标签的恶意评论分类问题转变为二类分类,防止了模型精度不稳定;用堆叠泛化集成时单个分类器GRU(Gated Recurrent Unit)和NB-SVM(Naïve Bayes-Support Vector Machine)在模型结构和分类偏差上的差异性,改善了模型精度.在维基百科恶意评论数据集上的对比实验证明:提出的方法优于boosting集成,说明堆叠泛化异构分类器实现恶意评论检测是可行且有效的.

关键词: 堆叠泛化, 恶意评论, 循环神经网络, NB-SVM, 词嵌入

Abstract: Toxic comment detection is an important work to prevent the negative impact of social media platform on users, and it is also one of the important fields of natural language processing. In order to solve the problems of unstable model accuracy and low accuracy of boosting ensemble model when an individual classifier detects toxic comments, a stack generalization with heterogeneous classifiers is proposed. In this method, the classification problem of multi-label toxic comments is transformed into binary categories by using deep recurrent neural network, which prevents the model accuracy from being unstable. Individual classifiers called GRU (Gated Recurrent Unit) and NB-SVM (Naïve Bayes-Support Vector Machine) are used during stacked generalization in order to embody the differences on model structure and classification deviation of individual classifiers, the goal is to improve the model accuracy.  Experimental results on Wikipedia toxic comments show that the proposed method has better than boosting ensemble, which reports that stacked generalization of heterogeneous classifiers is feasible and effective for toxic comments detection.

Key words: stacked generalization, toxic comments, recurrent neural network, NB-SVM

中图分类号: