电子学报 ›› 2019, Vol. 47 ›› Issue (10): 2202-2210.DOI: 10.3969/j.issn.0372-2112.2019.10.023

• 学术论文 • 上一篇    下一篇

具有双重稀疏机制的在线学习算法

魏波1,2, 吴瑞峰1, 张文生2, 吕敬钦1, 王莹莹3, 夏学文1   

  1. 1. 华东交通大学软件学院, 江西南昌 330013;
    2. 中国科学院自动化研究所, 北京 100190;
    3. 华东交通大学人文社会科学学院, 江西南昌 330013
  • 收稿日期:2018-08-18 修回日期:2019-01-05 出版日期:2019-10-25
    • 通讯作者:
    • 夏学文
    • 作者简介:
    • 魏波 男,1983年出生,湖北天门人.博士、中国自动化学会会员.2010年、2013年在武汉大学分别获得硕士和工学博士学位.现为中国科学院自动化研究所博士后,主要从事智能计算、在线机器学习等方面的研究工作.E-mail:weibo_wh@163.com;吴瑞峰 男,1993年生,湖北京山人.硕士研究生.主要从事智能计算与智能信息处理方面的研究;张文生 男,1966年出生,河南郑州人.中国科学院自动化研究所研究员,博士生导师,研究方向为模式识别、机器学习、深度神经网络等;吕敬钦 男,1984年出生,江西上饶人.博士.主要从事模式识别、视频图像处理方面的研究工作;王莹莹 女,1983年生,湖北襄阳人.硕士.研究方向为智能政务管理、电子政务.
    • 基金资助:
    • 国家自然科学基金 (No.61806204,No.61463017,No.61663009); 国家自然科学基金重点项目 (No.U61432008); 江西省高校教改课题 (No.JXJG-18-5-19)

An Online Learning Algorithm with Dual Sparse Mechanisms

WEI Bo1,2, WU Rui-feng1, ZHANG Wen-sheng2, Lü Jing-qin1, WANG Ying-ying3, XIA Xue-wen1   

  1. 1. School of Software, East China Jiaotong University, Nanchang, Jiangxi 330013, China;
    2. Institute of Automation, Chinese Academy of Science, Beijing 100190, China;
    3. School of Humanities and Social Sciences, East China Jiaotong University, Nanchang, Jiangxi 330013, China
  • Received:2018-08-18 Revised:2019-01-05 Online:2019-10-25 Published:2019-10-25

摘要: 针对大数据背景下数据分类问题,已有的在线学习算法通常引入L1范数正则化增强预测模型的稀疏性,但单一的正则化约束不能高效的获取稀疏模型.基于此,提出了一种具有双重稀疏机制的在线学习算法(an online learning algorithm with dual sparse mechanisms,DSOL).在DSOL算法中,一方面利用L1/2正则化项约束目标函数以增强预测模型的稀疏性,提高算法的泛化性能.另一方面用改进的梯度截取法对数据特征进行选择,有效稀疏化预测模型.通过L1/2正则化与改进的梯度截取策略的有机融合,有效利用了历史数据信息,提高了算法分类数据的性能.通过与另4种代表性稀疏在线学习算法在9个公开数据集的实验对比表明DSOL算法对数据分类的准确性更高.

关键词: 大数据, 在线学习, 稀疏性, L1/2范数, 平均梯度

Abstract: To deal with data classification problems under the background of big data,many existing online learning algorithms usually take advantage of L1 norm regularization to enhance the sparsity of the prediction model.However,a sparse prediction model cannot be obtained efficiently by a single regularization constraint.In this paper,an online learning algorithm with dual sparse mechanisms (DSOL) is proposed.In DSOL algorithm,the objective function is constrained by L1/2 regularization in order to enhance the prediction model's sparsity,and then improve the generalization ability of DSOL.Furthermore,an improved truncated gradient method is applied to enhance the sparsity of the prediction model through properly selecting the features of data.By the organic integration of the above two sparse mechanisms,including the L1/2 regularization and the improved truncated gradient method,some historical data information can be effectively utilized,and then the performance of the algorithm in data classification can be greatly improved.Extensive experiments between DSOL and other 4 popular sparse online learning algorithms on 9 open data sets manifest that DSOL algorithm yields more favorable performance on data classification.

Key words: big data, online learning, sparsity, L1/2 norm, average gradient

中图分类号: