电子学报 ›› 2021, Vol. 49 ›› Issue (3): 424-434.DOI: 10.12263/DZXB.20200337

• 学术论文 • 上一篇    下一篇

一种基于Tri-training的众包标记噪声纠正算法

杨艺1, 蒋良孝1,2, 李超群3, 李宏伟3   

  1. 1. 中国地质大学计算机学院, 湖北武汉 430074;
    2. 智能地学信息处理湖北省重点实验室(中国地质大学), 湖北武汉 430074;
    3. 中国地质大学数学与物理学院, 湖北武汉 430074
  • 收稿日期:2020-04-07 修回日期:2020-10-28 出版日期:2021-03-25
    • 通讯作者:
    • 蒋良孝
    • 作者简介:
    • 杨艺 男,1996年5月出生于江西省九江市.现为中国地质大学(武汉)计算机学院研究生.主要研究方向为机器学习和数据挖掘.E-mail:yangyi@cug.edu.cn;李超群 女,1981年2月出生于湖北省松滋市.现为中国地质大学(武汉)副教授、硕士生导师.主要研究方向为机器学习和数据挖掘.E-mail:chqli@cug.edu.cn;李宏伟 男,1964年4月出生于湖南省汨罗市.现为中国地质大学(武汉)教授、博士生导师.主要研究方向为智能计算与信息处理.E-mail:hwli@cug.edu.cn
    • 基金资助:
    • 国家自然科学基金联合基金 (No.U1711267); 中央高校基本科研业务费专项资金 (No.CUGGC03)

A Tri-training-Based Label Noise Correction Algorithm for Crowdsourcing

YANG Yi1, JIANG Liang-xiao1,2, LI Chao-qun3, LI Hong-wei3   

  1. 1. School of Computer Science, China University of Geosciences, Wuhan, Hubei 430074, China;
    2. Hubei Key Laboratory of Intelligent Geo-Information Processing, China University of Geosciences, Wuhan, Hubei 430074, China;
    3. School of Mathematics and Physics, China University of Geosciences, Wuhan, Hubei 430074, China
  • Received:2020-04-07 Revised:2020-10-28 Online:2021-03-25 Published:2021-03-25
    • Corresponding author:
    • JIANG Liang-xiao
    • Supported by:
    • Joint Funds of the National Natural Science Foundation of China (No.U1711267); Fundamental Research Funds for the Central Universities (No.CUGGC03)

摘要: 在众包学习中,使用标记集成算法得到的集成标记中仍然存在一定程度的标记噪声.本文受三重训练思想的启发,提出了一种基于tri-training的众包标记噪声纠正算法(Tri-Training-based Label Noise Correction,TTLNC).TTLNC首先使用过滤器获得干净集和噪声集,然后在干净集上进行bagging分别训练三个不同的分类器,并通过这些分类器重新标注噪声集中的实例,同时按照实例分配策略将实例分配给相应的训练集.最后在新训练集上重新训练三个不同的分类器,并用新分类器的分类结果重新标注所有实例.在仿真标准数据和真实众包数据集上的实验结果表明TTLNC比其他四种最先进的噪声纠正算法在噪声比和模型质量两个度量指标上表现更优.

 

关键词: 众包学习, 三重训练, 集成标记, 标记噪声, 噪声纠正, 噪声过滤

Abstract: In crowdsourcing learning, a certain level of label noise still exists in integrated labels obtained by employing ground truth inference algorithms. Inspired by the tri-training idea, this paper proposes a tri-training-based label noise correction (TTLNC) algorithm for crowdsourcing. TTLNC at first employs a filter to get a clean set and a noisy set and then trains three different classifiers from the bagged clean set. Furthermore, each instance from the noisy set is relabeled by these classifiers and assigned to the corresponding training set according to the designed instance assignment strategy. Finally, three classifiers are retrained on three new training sets and are used to relabel all instances. Experimental results on both simulated benchmark data and real-world crowdsourced data show that TTLNC significantly outperforms other four state-of-the-art noise correction algorithms in team of the noise ratio and the model quality.

 

Key words: crowdsourcing learning, tri-training, integrated labels, label noise, noise correction, noise filtering

中图分类号: