电子学报 ›› 2015, Vol. 43 ›› Issue (2): 248-254.DOI: 10.3969/j.issn.0372-2112.2015.02.007

所属专题: 机器学习—特征选择

• 学术论文 • 上一篇    下一篇

特征的支持度与其分类能力的关系研究

尹建芹1,2, 田国会3, 魏军1, 李金屏1, 林佳本2   

  1. 1. 济南大学信息科学与工程学院 山东省网络环境智能计算技术重点实验室, 山东济南 250022;
    2. 中国科学院太阳活动重点实验室, 北京 100012;
    3. 山东大学控制科学与工程学院, 山东济南 250061
  • 收稿日期:2013-11-05 修回日期:2014-04-21 出版日期:2015-02-25
    • 作者简介:
    • 尹建芹 女,1978年11月出生,山东潍坊人.副教授,博士.2000年获山东工业大学工学学士学位,2002年和2013年获山东大学工学硕士和工学博士学位.现工作于济南大学信息科学与工程学院,主要从事模式识别、机器学习及图像处理等相关研究. E-mail:ise_yinjq@ujn.edu.cn;田国会 男,1969年8月出生,河北河间人.教授、博士生导师.1990年、1993年和1997年分别在山东大学、山东工业大学和东北大学获理学学士、工学硕士和工学博士学位.现为山东大学服务机器人研究室主任,主要从事服务机器人、智能空间等的研究工作.
    • 基金资助:
    • 国家自然科学基金 (No.61075092,No.61203341,No.61173079); 山东省高等学校科技发展计划 (No.TJY1112); 中科院太阳活动重点实验室开放课题 (No.TQT1302)

Research on the Relationship of the Support and the Discriminative Ability for Classification of Features

YIN Jian-qin1,2, TIAN Guo-hui3, WEI Jun1, LI Jin-ping1, LIN Jia-ben2   

  1. 1. Shandong Provincial Key Laboratory of Network Based Intelligent Computing, School of Information Science and Engineering, University of Jinan, Jinan, Shandong 250022, China;
    2. Key Laboratory of Solar Activity, National Astronomical Observatories, Chinese Academy of Sciences, Beijing 100012, China;
    3. School of Control Science and Engineering, Shandong University, Jinan, Shandong 250061, China
  • Received:2013-11-05 Revised:2014-04-21 Online:2015-02-25 Published:2015-02-25
    • Supported by:
    • National Natural Science Foundation of China (No.61075092, No.61203341, No.61173079); Science and Technology Development Project of Higher Education Institutions in Shandong Province (No.TJY1112); Open Project of Key Laboratory of Solar Activity of Chinese Academy of Sciences (No.TQT1302)

摘要:

频繁模式挖掘在分类问题中得到了广泛的应用,大量的工作利用频繁模式挖掘对分类问题进行特征选择,但对于为什么频繁模式挖掘可以在分类问题中进行有效的特征选择则缺乏系统的研究.为了为频繁模式挖掘在分类问题中的特征选择应用提供理论基础,需要确立特征的支持度与特征分类能力之间的关系,本文以特征的信息增益作为分类能力的评价准则,讨论其与特征支持度之间的联系.首先证明了信息增益是特征支持度的上凸函数;然后,在二类问题和多类问题情况下,分别证明了具有低支持度或高支持度的特征具有有限的信息增益,即具有低支持度或高支持度的特征具有有限的分类能力.最后,通过仿真实验验证了支持度与信息增益之间的关系,为频繁模式挖掘在分类问题中的应用提供了理论基础.

关键词: 频繁模式, 分类, 特征选择, 信息增益

Abstract:

Frequent pattern mining is used widely in feature selection for classification problem.In order to provide theoretical basis for the application,we established the relationship between the classification discriminative ability and the support of the feature.Information gain was adopted as evaluation criteria,and we discussed the connection between the support of the feature and its discriminative ability.Firstly,we proved the information gain is a concave function about the support of the feature;secondly,we proved the conclusion that the feature with too-high or too-low support has limited discriminative ability under the two classes and multiple classes circumstances separately;Finally,simulation experiments validate our conclusions.And the conclusion provides a theoretical basis for the application of frequent pattern mining in classification problems.

Key words: frequent pattern, classification, feature selection, information gain

中图分类号: