电子学报 ›› 2015, Vol. 43 ›› Issue (7): 1356-1361.DOI: 10.3969/j.issn.0372-2112.2015.07.016

所属专题: 机器学习—特征选择

• 学术论文 • 上一篇    下一篇

基于特征项分布的信息熵及特征动态加权概念漂移检测模型

孙雪1, 李昆仑2, 韩蕾1, 白晓亮1   

  1. 1. 河北大学工商学院, 河北保定 071002;
    2. 河北大学电子信息工程学院, 河北保定 071000
  • 收稿日期:2014-01-03 修回日期:2014-06-06 出版日期:2015-07-25 发布日期:2015-07-25
  • 作者简介:孙 雪 女,1981年1月出生于天津市.现为河北大学工商学院老师.从事模式识别与人工智能,机器学习与数据挖掘,信息安全方面的研究. E-mail:sunxue@hbu.edu.cn;李昆仑 男,1962年7月出生于河北保定市.教授,硕士生导师.主要研究方向为模式识别与人工智能,机器学习与数据挖掘,信息安全,生物信息技术等. E-mail:likunlun@hbu.edu.cn
  • 基金资助:

    国家自然基金(No.61073121);河北省自然基金(No.F2013201170);国家科技支撑计划(No.2013BAK07B04);河北省高等学校科学技术研究重点项目(No.ZD2014008);河北大学青年基金(No.2010Q17)

Construction of the Concept Drift Detection Model Based on the Information Entropy of Feature Distribution and Dynamic Weighting Algorithm

SUN Xue1, LI Kun-lun2, HAN Lei1, BAI Xiao-liang1   

  1. 1. Industrial and Commercial College, Hebei University, Baoding, Hebei 071000, China;
    2. College of Electronic and Information Engineering, Hebei University, Baoding, Hebei 071002, China
  • Received:2014-01-03 Revised:2014-06-06 Online:2015-07-25 Published:2015-07-25

摘要:

现有的概念漂移算法大多建立在数据流的分类模型上,忽略了特征空间与样本空间的分布特点,以及特征选择和加权的重要性.针对此问题提出了一种基于特征项分布的信息熵及特征动态加权算法,从概念漂移的动态演化性出发,根据样本和特征空间的拟合程度,运用特征信息熵理论对数据流中的概念漂移现象进行捕捉,以实现新旧概念的过渡.利用改进的隐含Dirichlet模型特征动态加权算法,以解决当前特征与历史特征的权重确定和无效特征的裁剪问题.在公开的语料库CCERT和Trec06上的测试实验证明了所提出算法的有效性.

关键词: 概念漂移, LDA模型, 特征项分布, 信息熵

Abstract:

Most of the existing concept drift algorithm focuses on the classification model data streams,some of which overlook the distribution of the feature space and sample space,and the importance of feature selection and weighting.To solve this problem,we propose a dynamic information entropy and feature weighting algorithm based on the distribution of feature items from the dynamic evolution of the concept drift departure.To realize the concept transition,we capture the concept drifting of the data stream by the information entropy,according to the fitness degree between the sample and feature space.We improve the feature dynamic weighting latent dirichlet model,to overcome the problem of the current and historical feature weight assignment,as well as cropping the invalid features.Furthermore,the validity of the proposed algorithm was confirmed by the test in open corpus CCERT and Trec06.

Key words: concept drift, latent dirichlet allocation(LDA), feature distribution, information entropy

中图分类号: