电子学报 ›› 2021, Vol. 49 ›› Issue (2): 286-291.DOI: 10.12263/DZXB.20180711

• 学术论文 • 上一篇    下一篇

一种基于混合学习的恶意代码检测方法

梁光辉1,3, 摆亮2, 庞建民1,3, 单征1,3, 岳峰1,3, 张磊4   

  1. 1. 解放军信息工程大学, 河南郑州 450002;
    2. 国家计算机网络应急技术处理协调中心, 北京 100029;
    3. 数学工程与先进计算国家重点实验室, 河南郑州 450002;
    4
  • 收稿日期:2018-08-09 修回日期:2020-01-16 出版日期:2021-02-25 发布日期:2021-02-25
  • 通讯作者: 庞建民
  • 作者简介:梁光辉 男,1987年6月出生,陕西兴平人,现为信息工程大学博士研究生.主要研究方向为机器学习与恶意代码分析.E-mail:lghray@gmail.com;摆亮 男,1983年5月出生,北京人,清华大学,博士,现为国家互联网应急中心高级工程师.研究方向为物联网与关键基础设施安全.E-mail:bailiang@cert.org.cn
  • 基金资助:
    国家自然科学基金(No.61472447,No.61802435,No.61802433)

A Malware Detection Method Based on Hybrid Learning

LIANG Guang-hui1,3, BAI Liang2, PANG Jian-min1,3, SHAN Zheng1,3, YUE Feng1,3, ZHANG Lei4   

  1. 1. PLA Information Engineering University, Zhengzhou, Henan 450002, China;
    2. National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China;
    3. State Key Laboratory of Mathematical Engineering and Advanced Computing, Zhengzhou, Henan 450002, China;
    4. Unit 78090, Chengdu, Sichuan 610000, China
  • Received:2018-08-09 Revised:2020-01-16 Online:2021-02-25 Published:2021-02-25

摘要: 近年来,自动化沙箱被广泛部署并应用于恶意代码分析与检测,然而随着恶意代码数量的激增和抗分析能力的增强,如何有效应对海量恶意代码分析任务,提高沙箱系统分析效率,是增强网络安全防御能力的一个重要研究方向.本文利用不同学习方式以及恶意代码动、静态特征的特点,提出了一种基于混合学习模型的恶意代码检测方法,分别提取恶意代码的静态模糊哈希特征和动态行为特征,然后将无监督聚类学习与有监督的分类学习相结合用于恶意代码检测.实验表明,在不影响检测精度的情况下,只利用了原有系统0.02%分析时间提高了整个系统25.6%的检测速度.

 

关键词: 恶意代码, 模糊哈希, 混合学习

Abstract: In recent years,automated sandboxes have been widely deployed for malware analysis and detection.However,with the rapid increase column of malware and the enhancement of anti-analysis capabilities,how to effectively handle these massive malware analysis tasks and improve the efficiency of sandbox system is an important research topic.Based on the characteristics of different learning methods and malware dynamic and static features,this paper proposes a malware detection method based on a hybrid learning model.We extract static fuzzy-hash features and dynamic behavior features of malware,then unsupervised clustering learning is combined with supervised classification learning.Experiments show that using only 0.02% of the analysis time improves the detection speed of the entire system by 25.6% without affecting the detection accuracy.

Key words: malware, fuzzy hash, hybrid learning

中图分类号: