电子学报 ›› 2019, Vol. 47 ›› Issue (3): 719-725.DOI: 10.3969/j.issn.0372-2112.2019.03.029

• 学术论文 • 上一篇    下一篇

非平衡化标签补全核极限学习机多标签学习

程玉胜1,2, 赵大卫1, 王一宾1,2, 裴根生1   

  1. 1. 安庆师范大学计算机与信息学院, 安徽安庆 246011;
    2. 安徽省高校智能感知与计算重点实验室, 安徽安庆 246011
  • 收稿日期:2018-01-07 修回日期:2018-04-23 出版日期:2019-03-25 发布日期:2019-03-25
  • 作者简介:程玉胜 男,1969年出生于安徽安庆.现为安庆师范大学计算机与信息学院博士、教授.主要研究方向包括数据挖掘,粗糙集和多标签特征选择学习等.E-mail:chengyshaq@163.com;赵大卫 男,1993年出生于安徽芜湖.安庆师范大学计算机与信息学院研究生.主要研究方向包括机器学习,数据挖掘和统计等.E-mail:like854@qq.com;王一宾 男,1970年出生于安徽安庆.安庆师范大学计算机与信息学院教授.主要研究方向包括多标签学习,机器学习和软件安全等.E-mail:wangyb07@mail.ustc.edu.cn;裴根生 男,1992年出生于安徽巢湖.安庆师范大学计算机与信息学院研究生.主要研究方向包括机器学习,数据挖掘和统计等.E-mail:509692177@qq.com
  • 基金资助:
    安徽省高校重点自然科学基金项目(No.KJ2017A352);安徽省高校重点实验室基金项目(No.ACAIM160102)

Multi-label Learning of Kernel Extreme Learning Machine with Non-Equilibrium Label Completion

CHENG Yu-sheng1,2, ZHAO Da-wei1, WANG Yi-bin1,2, PEI Gen-sheng1   

  1. 1. School of Computer and Information, Anqing Normal University, Anqing, Anhui 246011, China;
    2. The University Key Laboratory of Intelligent Perception and Computing of Anhui Province, Anqing, Anhui 246011, China
  • Received:2018-01-07 Revised:2018-04-23 Online:2019-03-25 Published:2019-03-25

摘要: 目前众多的研究者通常直接将标签置信度矩阵作为先验知识直接加入到分类模型中,并没有考虑未标注先验知识对标签集质量的影响.基于此,引入非平衡参数的方法,将先验知识获得的基础置信度矩阵进行非平衡化,从而提出一种非平衡化的标签补全的核极限学习机多标签学习算法(KELM-NeLC):首先使用信息熵计算标签之间的相关关系得到标签置信度矩阵,然后利用非平衡参数方法对基础的标签置信度矩阵进行改进,构建出一个非平衡的标签补全矩阵,最后为了学习获得更加准确的标签置信度矩阵,将非平衡化的标签补全矩阵与核极限学习机进行联合学习,依此解决多标签分类问题.提出的算法在公开的多个基准多标签数据集中的实验结果表明,KELM-NeLC算法较其他对比的多标签学习算法有一定优势,使用统计假设检验进一步说明所提出算法的有效性.

关键词: 机器学习, 多标签学习, 标签相关性, 信息熵, 标签补全, 极限学习机

Abstract: At present,many researchers usually directly add the label confidence matrix as a priori knowledge to the classification model,and do not consider the influence of non-equilibrium prior knowledge on the quality of the label set.Based on this,the method of non-equilibrium parameters is introduced,and the basis confidence matrix obtained from the prior knowledge is non-equilibrium.Therefore,a multi-label learning algorithm is proposed,which uses kernel extreme learning machine with non-equilibrium label completion (KELM-NeLC).Firstly,information entropy is used to measure the correlation between labels which gets the basic label confidence matrix.Secondly,the basic label confidence matrix is improved to construct non-equilibrium label completion matrix by the non-equilibrium parameter.Finally,in order to learn to obtain a more accurate label confidence matrix,the non-equilibrium label completion matrix is introduced with the kernel extreme learning machine to solve the multi-label classification problem.The experimental results of the proposed algorithm in the opening benchmark multi-label datasets show that the KELM-NeLC algorithm has some advantages over other comparative multi-label learning algorithms and the statistical hypothesis test further illustrates the effectiveness of the proposed algorithm.

Key words: machine learning, multi-label learning, label correlations, information entropy, label completion, extreme learning machine

中图分类号: