电子学报 ›› 2018, Vol. 46 ›› Issue (9): 2081-2086.DOI: 10.3969/j.issn.0372-2112.2018.09.006

• 学术论文 • 上一篇    下一篇

基于双向LSTM的误植域名滥用检测方法

吕品1,2, 李全刚1, 柳厅文1, 宁振虎3, 王玉斌1,2, 时金桥1, 方滨兴4,1   

  1. 1. 中国科学院信息工程研究所, 北京 100093;
    2. 中国科学院大学网络空间安全学院, 北京 100049;
    3. 北京工业大学信息学部, 北京 100124;
    4. 电子科技大学广东电子信息工程研究院, 广东东莞 523808
  • 收稿日期:2017-06-15 修回日期:2017-11-26 出版日期:2018-09-25
    • 通讯作者:
    • 李全刚
    • 作者简介:
    • 吕品 男,1982年9月出生于河北省曲阳县.现为中国科学院大学网络空间安全学院、中国科学院信息工程研究所在读博士研究生,高级工程师,主要研究方向为信息安全、网络安全监测。E-mail:lvpin@iie.ac.cn;柳厅文 男,1986年5月出生于安徽省临泉县.2013年博士毕业于中国科学院大学.现为中国科学院信息工程研究所副研究员,主要研究方向为大数据分析与知识发现等.E-mail:liutingwen@iie.ac.cn;宁振虎 男,1983年9月出生于河北省邯郸市.现为北京工业大学信息学部讲师,主要研究方向为信息安全和可信计算。E-mail:nzh41034@163.com;王玉斌 男,1991年8月出生于河北省保定市.中国科学院信息工程研究所在读博士生,主要研究方向为大数据分析.E-mail:wangyubin@iie.ac.cn;时金桥 男,1978年1月出生于黑龙江省哈尔滨市.2007年博士毕业于哈尔滨工业大学.现为中国科学院信息工程研究所正研级高工,博导,主要研究方向为大数据安全与隐私保护等.E-mail:shijinqiao@iie.ac.cn;方滨兴 男,1960年7月出生于黑龙江省哈尔滨市.现为中国工程院院士、电子科技大学广东电子信息工程研究院教授,主要研究方向计算机系统结构、信息安全等。E-mail:fangbx@iie.ac.cn
    • 基金资助:
    • 国家重点研发计划 (2016YFB0801003); 东莞市引进创新科研团队计划资助 (No.201636000100038)

Towards Typosquatting Abuse Detection using Bi-directional LSTM

LÜ Pin1,2, LI Quan-gang1, LIU Ting-wen1, NING Zhen-hu3, WANG Yu-bin1,2, SHI Jin-qiao1, FANG Bin-xing4,1   

  1. 1.School of Cyber Security, University of Chinese Academy of Sciences, Beijing 100049, China;
    2.Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China;
    3.Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China;
    4.University of Electronic Science and Technology Guangdong Institute of Electronic Information Engineering, Dongguan, Guangdong 523808, China
  • Received:2017-06-15 Revised:2017-11-26 Online:2018-09-25 Published:2018-09-25
    • Corresponding author:
    • LI Quan-gang

摘要: 当前,误植域名检测主要以计算域名对之间的编辑距离为基础,未能充分挖掘域名的上下文信息,且对短域名的检测易产生大量的假阳性结果。采集域名相关信息进行判定虽然有助于提高检测效果,却会引入较大的额外开销.本文采用了基于域名字符串的轻量级检测策略,并引入双向长短时记忆模型(LSTM,Long Short-Term Memory)来充分利用域名上下文,提升检测效果.本文还设计了面向域名的局部敏感哈希函数,以提高在大规模域名集合上进行误植域名检测的速度.在大量真实数据集上的实验结果表明,本文的工作改进了基于编辑距离检测方法的不足,能够有效地进行误植域名滥用检测.

关键词: 误植域名, 编辑距离, 双向LSTM, 上下文信息, 局部敏感哈希

Abstract: Prior works on detection of typosquatting abuse are based on the calculation of edit distance between domains. They do not fully utilize the context information of domains, and usually give many false positive results for short domains. Actively crawling much related information of the given domains can help improving the results, but introduce a heavy overhead. Therefore, we design a lightweight detecting strategy based on domain names, and introduce the bi-directional long short-term memory (LSTM) model to make full use of the domain context information. Furthermore, we give a locality sensitive hashing function for domain names, in order to increase the speed of typosquatting abuse detection over large-scale domain sets. Experimental results on a real data set show that the proposed method can overcome the shortcomings of edit distance based methods, and can detect typosquatting abuse efficiently.

Key words: typosquatting domain, edit distance, bi-directional LSTM, context information, locality sensitive hashing

中图分类号: