电子学报 ›› 2016, Vol. 44 ›› Issue (10): 2410-2414.DOI: 10.3969/j.issn.0372-2112.2016.10.019

• 学术论文 • 上一篇    下一篇

基于调用习惯的恶意代码自动化同源判定方法

乔延臣1,2,3, 云晓春1,3, 张永铮3, 李书豪3   

  1. 1. 中国科学院计算技术研究所, 北京 100190;
    2. 中国科学院大学, 北京 100049;
    3. 中国科学院信息工程研究所, 北京 100093
  • 收稿日期:2015-04-05 修回日期:2015-08-24 出版日期:2016-10-25 发布日期:2016-10-25
  • 作者简介:乔延臣,男,1988年9月出生,山东聊城人.2010年毕业于山东大学数学学院,获学士学位.现为在读博士生.主要从事网络信息安全、恶意代码等方面的研究工作.E-mail:qiaoyanchen@iie.ac.cn;云晓春,男,1971年2月出生,黑龙江哈尔滨人.1999年获哈尔滨工业大学获工学博士学位.现为中国科学院计算技术研究所研究员、博士生导师,主要从事信息安全、计算机网络等方面的研究工作.E-mail:yunxiaochun@cert.org.cn
  • 基金资助:

    国家自然科学基金(No.61303261);国家863高技术研究发展计划(No.2013AA014703,No.2012AA012803);国家242信息安全计划(No.2014A094);中国科学院战略性科技先导专项(No.XDA06030200)

An Automatic Malware Homology Identification Method Based on Calling Habits

QIAO Yan-chen1,2,3, YUN Xiao-chun1,3, ZHANG Yong-zheng3, LI Shu-hao3   

  1. 1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;
    2. University of Chinese Academy of Sciences, Beijing 100049, China;
    3. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China
  • Received:2015-04-05 Revised:2015-08-24 Online:2016-10-25 Published:2016-10-25

摘要:

恶意代码同源判定对作者溯源、攻击事件责任判定、攻击场景还原等研究工作具有重要作用.目前恶意代码同源判定方法往往依赖人工分析,效率低下,为此,提出一种基于调用习惯的恶意代码自动化同源判定方法.该方法基于7类调用行为,使用数据挖掘算法构建作者编程习惯模型,基于频繁项离群检测算法计算同源度,利用K均值聚类算法选择同源判定阈值,进而实现恶意代码同源判定.实验结果表明,该方法具有99%以上的准确率和可接受的召回率.

关键词: 网络安全, 恶意代码, 同源判定, 调用习惯, 自动化

Abstract:

Malware homology identification is useful for malware authorship attribution,attack scenario restoration,and so on.Current malware homology identification methods still rely on manual analysis,which is inefficient and time-consuming.In order to improve the effectiveness and efficiency,an automatic malware homology identification method is proposed.Based on 7-class calling behaviors,this method constructs a model of calling habits using data mining algorithms.Then it calculates the degree of homology based on Frequent Pattern Outlier Factor.Finally,it chooses the threshold values using k-means clustering algorithm to identify homology.The experimental evaluations on real-world malwares show our method achieves high accuracy (over 99%) and acceptable recall rate.

Key words: network security, malware, homology identification, calling habits, automatic

中图分类号: