taptap下载安装安卓学报

• 工程技术 • 上一篇    

基于文本挖掘的恶意软件分类方法

王冲,李炳辰,王进保   

  1. (天津渤海职业技术学院信息工程系,天津300300)
  • 收稿日期:2017-03-18 修回日期:2017-04-20 出版日期:2018-02-24 发布日期:2018-01-17
  • 作者简介:王冲(1991—),女,河南开封人,助教,工学硕士,研究方向为信息安全、物联网技术.
  • 基金资助:
    国家自然科学基金项目(60776807,61179045);天津市科技计划重点项目(09JCZDJC16800)

Malware classification method based on text mining

WANG Chong, LI Bingchen, WANG Jinbao   

  1. (Information Engineering Department, Tianjin Bohai Vocational Technical College, TianJin 300300, China)
  • Received:2017-03-18 Revised:2017-04-20 Online:2018-02-24 Published:2018-01-17

摘要: 为了有效分类恶意软件,将文本挖掘技术应用到恶意软件分类中,通过代码串提取方法提取结构化的代码串,再使用层次聚类算法将恶意软件聚类成恶意软件家族。然后使用文本挖掘中提取关键字的计算方式设计恶意软件家族特征向量提取算法,给出公式定义、提取特征向量算法流程和代码实现。最后设计分类器,给出距离计算公式和分类算法流程。编程实现了层次聚类算法、恶意软件家族特征提取算法和K-NN分类算法。实验结果表明,基于文本挖掘的恶意软件分类方法可有效准确地对恶意软件分类。

关键词: 恶意软件, 层次聚类, 文本挖掘

Abstract: To classify malwares effectively, a malware classification method based on text mining is proposed. Code string extracting stage can decorticate and disassemble malwares and extract structured code strings of malwares.Hierarchical clustering algorithm is used to cluster malwares into malware families. Then quantitative analysis on malware families is conducted, and the malware families. feature vector is obtained. Distance between malwares captured by mobile honeypot and malware families are calculated. Then the nearest malwares are devided into corresponding malware families. Classification experiment result proves the accuracy and efficiency of the new classification method.

Key words: malware, hierarchical clustering, text mining

中图分类号: 

Baidu
map