电子学报 ›› 2015, Vol. 43 ›› Issue (4): 795-799.DOI: 10.3969/j.issn.0372-2112.2015.04.024

所属专题: 机器学习—特征选择

• 科研通信 • 上一篇    下一篇

网络流量特征选择方法中的分治投票策略研究

高文1, 钱亚冠1,2, 吴春明1, 郭晔3, 朱凯1, 陈双喜4   

  1. 1. 浙江大学计算机学院, 浙江杭州 310027;
    2. 浙江科技学院理学院, 浙江杭州 310023;
    3. 浙江大学图书与信息中心, 浙江杭州 310027;
    4. 嘉兴职业技术学院, 浙江嘉兴 314036
  • 收稿日期:2013-11-05 修回日期:2014-03-03 出版日期:2015-04-25
    • 通讯作者:
    • 钱亚冠
    • 作者简介:
    • 高文 男,1987年生,广东广州人.2009年毕业于上海交通大学,获学士学位.现为浙江大学计算机学院博士研究生,主要研究方向为软件定义网络、可重构网络、网络仿真平台.E-mail:gavingao@zju.edu.cn;吴春明 男,1967年生,浙江萧山人,博士.现为浙江大学计算机学院教授、博士生导师,主要研究方向为未来互联网络、可重构网络技术与网络虚拟化、网络服务质量.E-mail:wcm@zju.edu.cn;朱凯 男,1989年生,山东枣庄人.2011年毕业于山东大学,获学士学位.现为浙江大学计算机科学与技术学院博士研究生,主要研究方向为软件定义网络、可重构网络、网络虚拟化计算.陈双喜 男,1980年生,安徽安庆人,硕士,现为嘉兴职业技术学院信息技术分院讲师,浙江大学计算机系统结构与网络安全研究所科研聘岗教师,主要研究方向:未来网络体系架构、网络内容安全、机器学习、分布式计算.
    • 基金资助:
    • 国家973重点基础研究发展计划 (No.2012CB315903); 浙江省重点科技创新团队 (No.2011R50010-21,No.2013TD20); 国家自然科学基金 (No.61379118); 国家科技支撑计划 (No.2014BAH24F01); 国家863计划 (No.2012AA01A507); 浙江省网络媒体云处理与分析工程技术中心开放课题 (No.2012E10023-14)

The Divide-Conquer and Voting Strategy for Traffic Feature Selection

GAO Wen1, QIAN Ya-guan1,2, WU Chun-ming1, GUO Ye3, ZHU Kai1, CHEN Shuang-xi4   

  1. 1. The College of Computer Science, Zhejiang University, Hangzhou, Zhejiang 310027, China;
    2. College of Science, Zhejiang University of Science and Technology, Hangzhou, Zhejiang 310023, China;
    3. Library Information Center, Zhejiang University, Hangzhou, Zhejiang 310027, China;
    4. Jiaxing Vocational Technology College, Jiaxing, Zhejiang 314036, China
  • Received:2013-11-05 Revised:2014-03-03 Online:2015-04-25 Published:2015-04-25
    • Supported by:
    • National Program on Key Basic Research Project of China  (973 Program) (No.2012CB315903); Key Science and Technology Innovation Team Zhejiang Province (No.2011R50010-21, No.2013TD20); National Natural Science Foundation of China (No.61379118); National Key Technology Research and Development Program of the Ministry of Science and Technology (No.2014BAH24F01); National High-tech R&D Program of China  (863 Program) (No.2012AA01A507); Open Project of Zhejiang Network Media Cloud Processing and Analysis Engineering Technology Research Center (No.2012E10023-14)

摘要:

特征选择作为机器学习过程中的预处理步骤,是影响分类性能的关键因素.网络流量具有数据量大,特征维度高的特点,如何快速提取特征子集,并提高分类效率对于基于机器学习的流量分类方法具有重要意义.本文提出基于分治与投票策略的特征提取方法,将数据集分裂为多个子集,分别执行特征提取算法,利用投票方法获得最后的特征子集.实验表明可有效提高特征提取的时间效率,同时使分类器取得良好的分类准确率.

关键词: 分治, 投票, 流量分类, 特征选择

Abstract:

Feature selection as a substantial preprocess step is a key factor for improvement of classification accuracy.The network traffic is characterized by huge volume and high dimensions.So how to extract the optimal feature subset in short time is practical for traffic classification based on machine learning.A novel method is proposed,which partitions the traffic dataset into several small subsets,and applies special feature selection algorithm to them respectively.Finally,the optimal feature subset is obtained by voting on these alternative feature subsets.The experiment results show that the proposed method has good time efficiency in searching optimal features and helps to improve classification accuracy efficiently.

Key words: divide and conquer, voting, traffic classification, feature selection

中图分类号: