分享自:

基于预训练Transformer模型的不平衡多类恶意软件分类

期刊:computers & securityDOI:10.1016/j.cose.2022.102846

本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:

作者及发表信息

该研究由Ferhat Demirkıran、Aykut Çayır、Uğur Ünal和Hasan Dağ共同完成。Ferhat Demirkıran来自Kadir Has University的网络安全研究生项目,Aykut Çayır来自华为研发中心(伊斯坦布尔),Uğur Ünal和Hasan Dağ均来自Kadir Has University的管理信息系统部门。该研究于2022年7月27日在线发表在《Computers & Security》期刊上,文章编号为102846。

学术背景

该研究的主要科学领域是网络安全,特别是恶意软件(malware)分类。随着互联网的普及,恶意软件成为网络攻击的主要工具,其分类对于理解恶意软件的感染机制、加速安全响应至关重要。传统的机器学习和深度学习模型在处理恶意软件的API调用序列时,无法有效捕捉序列之间的关系。基于Transformer的模型通过多头注意力机制和位置编码,能够更好地处理序列数据并学习API调用之间的关系。因此,该研究旨在探索基于预训练Transformer模型的集成方法,以解决不平衡多类恶意软件分类问题。

研究流程

  1. 数据集选择与预处理
    研究使用了四个不同的恶意软件数据集,包括动态API调用数据集(Catak和Oliveira)和静态API调用数据集(Virusshare和Virussample)。每个数据集包含不同恶意软件家族的API调用序列及其标签。研究首先对数据集进行了预处理,包括去除重复的API调用序列、去除连续的二进制和三元子序列,以减少噪声和冗余数据。

  2. 基础模型选择与训练
    研究选择了LSTM(长短期记忆网络)和单层Transformer块作为基础模型进行比较。每个数据集被分为训练集、验证集和测试集,采用分层抽样以确保类别分布的平衡。训练过程中使用了类别权重方法,以解决类别不平衡问题。研究还使用了10折交叉验证来评估模型性能。

  3. 预训练Transformer模型的应用
    研究采用了两种预训练Transformer模型:BERT(Bidirectional Encoder Representations from Transformers)和CANINE(Character Architecture with No Tokenization in Neural Encoders)。BERT使用WordPiece分词,而CANINE则是一种无分词的字符级编码模型。研究比较了这两种模型在恶意软件分类任务中的表现。

  4. 集成模型的提出与验证
    研究提出了一种基于Bagging的集成模型——随机Transformer森林(Random Transformer Forest, RTF)。该模型通过Bootstrap采样生成多个训练子集,并使用这些子集分别微调预训练Transformer模型。在测试阶段,每个微调模型的输出通过多数投票进行聚合,以得到最终的分类结果。

  5. 模型性能评估
    研究使用F1分数和AUC(Area Under Curve)作为评估指标,特别是在不平衡数据集上,这些指标能够更准确地反映模型的分类性能。研究还比较了不同模型的训练时间和推理时间,以评估其在实际应用中的效率。

主要结果

  1. 基础模型比较
    在四个数据集上,单层Transformer模型在F1分数和AUC得分上均优于LSTM模型,且训练时间显著缩短。例如,在Catak数据集上,Transformer模型的F1分数为0.5042,而LSTM模型为0.4638。

  2. 预训练模型的表现
    BERT和CANINE模型在大多数数据集上均优于单层Transformer模型。特别是在静态API调用数据集(Virusshare和Virussample)上,CANINE模型表现出色。例如,在Virussample数据集上,CANINE模型的F1分数为0.7893,而BERT模型为0.7759。

  3. 集成模型的表现
    提出的RTF模型在三个数据集上达到了最先进的分类性能。例如,在Catak数据集上,RTF模型的F1分数为0.6149,显著高于之前的研究结果(0.57)。这表明基于Bagging的集成方法能够有效提升不平衡多类恶意软件分类的性能。

  4. 训练与推理时间
    预训练模型(BERT和CANINE)的训练时间较长,但其推理时间在实际应用中仍然可接受。例如,在Virussample数据集上,CANINE模型的推理时间为1.4224秒,而LSTM模型为0.1070秒。

结论

该研究通过提出基于预训练Transformer模型的集成方法,成功解决了不平衡多类恶意软件分类问题。RTF模型在多个数据集上达到了最先进的分类性能,特别是在静态API调用数据集上表现尤为突出。研究还证明了CANINE模型在恶意软件分类任务中的潜力,这是该模型首次应用于该领域。

研究的意义与价值

该研究为恶意软件分类提供了一种新的解决方案,特别是在处理不平衡数据集时表现出色。提出的RTF模型能够有效提升分类性能,为网络安全领域的研究和实践提供了重要参考。此外,研究还展示了预训练Transformer模型在恶意软件分类任务中的优势,为未来的研究提供了新的方向。

研究亮点

  1. 首次应用CANINE模型
    该研究首次将CANINE模型应用于恶意软件分类领域,展示了其在处理无分词序列数据中的潜力。

  2. 提出RTF集成模型
    研究提出了一种基于Bagging的集成模型RTF,显著提升了不平衡多类恶意软件分类的性能。

  3. 最先进的分类性能
    RTF模型在多个数据集上达到了最先进的分类性能,特别是在Catak数据集上取得了F1分数0.6149的突破性成果。

  4. 全面的数据集比较
    研究在四个不同的恶意软件数据集上进行了全面的实验,验证了所提出方法的普适性和鲁棒性。

其他有价值的内容

研究还详细讨论了数据预处理对模型性能的影响,特别是在动态API调用数据集上,预处理步骤显著提升了模型的分类性能。此外,研究还比较了不同模型的训练和推理时间,为实际应用中的模型选择提供了重要参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com