分享自:

基于线图的加权距离SMOTE用于不平衡网络流量检测的LGSMOTE-IDS框架

期刊:Expert Systems with ApplicationsDOI:10.1016/j.eswa.2025.127645

该文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


主要作者与机构
本研究由Guyu Zhao、Linwei Li、Hongdou He和Jiadong Ren共同完成,他们均来自中国燕山大学信息科学与工程学院。研究论文发表于期刊《Expert Systems with Applications》2025年第281卷,文章编号为127645。

学术背景
随着计算机网络技术的快速发展,网络安全问题日益严重,网络入侵检测系统(NIDS, Network Intrusion Detection System)成为网络安全的重要组成部分。然而,NIDS数据集普遍存在严重的类别不平衡问题,即攻击样本(尤其是少数类攻击样本)的数量远少于正常样本,这导致模型在检测少数类攻击时表现不佳。此外,现有的基于图神经网络(GNN, Graph Neural Network)的研究大多忽略了边特征的重要性,限制了模型的有效性。为解决这些问题,本研究提出了一种新的框架LGSMOTE-IDS(Line Graph based Weighted-Distance SMOTE for Intrusion Detection Systems),旨在通过结合图神经网络和过采样算法,提升NIDS在类别不平衡数据集上的性能。

研究目标
本研究的主要目标是:1)通过定义细粒度的协议服务图(PSG, Protocol Service Graph)并将其转换为对应的协议服务线图(L(PSG), Protocol Service Line Graph),为网络流量交互提供新的描述视角;2)提出一种加权距离的过采样算法(Weighted-Distance SMOTE),专门针对NIDS数据集生成合成少数类样本;3)利用基于GNN的分类器对所有样本进行标签预测,提升少数类攻击样本的检测能力。

详细工作流程
研究流程分为以下几个步骤:

  1. 协议服务图与线图构建
    首先,研究者定义了协议服务图(PSG),将网络主机建模为节点,主机之间的流量建模为有向边。PSG通过结合IP地址和端口号,提供了比传统方法更细粒度的网络拓扑描述。接着,PSG被转换为协议服务线图(L(PSG)),将边分类任务转化为节点分类任务。这一转换通过图论中的线图理论实现,能够更好地描述网络流量交互的结构。

  2. 加权距离过采样算法
    针对NIDS数据集的类别不平衡问题,研究者提出了加权距离过采样算法(Weighted-Distance SMOTE)。该算法通过计算节点之间的欧几里得距离,选择与中心节点最相关的k个邻居进行插值,生成新的少数类样本。与传统的SMOTE算法相比,加权距离过采样算法能够生成更符合原始数据分布的合成样本,同时减少噪声。

  3. GNN分类器训练
    在生成新的少数类样本后,研究者使用基于GNN的分类器对所有样本进行标签预测。具体而言,采用GraphSAGE作为编码器,通过聚合邻居节点的信息来更新节点表示。最后,通过交叉熵损失函数对模型进行优化。

  4. 实验与评估
    研究者在三个广泛使用的NIDS数据集(NF-UNSW-NB15、NF-Bot-IoT和NF-ToN-IoT)上进行了实验,评估了LGSMOTE-IDS的性能。实验结果表明,LGSMOTE-IDS在加权F1分数上相比基线方法分别提高了18.11%、45.91%和36.41%。此外,LGSMOTE-IDS能够检测到以往模型无法识别的攻击类型。

主要结果
1. 协议服务线图的有效性
L(PSG)通过将边分类任务转化为节点分类任务,显著提升了模型对网络流量交互结构的描述能力。实验表明,L(PSG)能够更好地捕捉攻击流量的空间相关性。

  1. 加权距离过采样算法的优势
    加权距离过采样算法在生成合成样本时,能够更好地利用邻居节点的特征信息,生成更具代表性的少数类样本。实验结果表明,该算法在极端不平衡场景下表现优异,能够有效识别以往模型无法检测的少数类攻击。

  2. GNN分类器的性能提升
    基于GNN的分类器在L(PSG)和加权距离过采样算法的基础上,显著提升了模型在NIDS数据集上的分类性能。实验结果显示,LGSMOTE-IDS在三个数据集上的加权F1分数均优于基线方法。

结论与意义
本研究提出了一种创新的框架LGSMOTE-IDS,首次将图神经网络与过采样算法结合,解决了NIDS数据集中的类别不平衡问题。通过构建协议服务线图和提出加权距离过采样算法,LGSMOTE-IDS显著提升了模型对少数类攻击样本的检测能力。该研究不仅为NIDS领域提供了新的技术路径,还为其他类别不平衡问题的研究提供了重要参考。

研究亮点
1. 创新性方法
LGSMOTE-IDS首次将图神经网络与过采样算法结合,提出了一种新的解决类别不平衡问题的方法。

  1. 协议服务线图的应用
    通过将边分类任务转化为节点分类任务,L(PSG)为网络流量交互提供了新的描述视角。

  2. 加权距离过采样算法
    该算法通过改进插值策略,生成更符合原始数据分布的合成样本,显著提升了模型在极端不平衡场景下的性能。

  3. 实验验证
    在三个广泛使用的NIDS数据集上的实验结果表明,LGSMOTE-IDS在加权F1分数和少数类攻击检测能力上均优于基线方法。

其他有价值的内容
研究者在实验部分还详细分析了超参数(如λ和k)对模型性能的影响,并提供了相应的优化建议。此外,研究还对L(PSG)在大规模攻击场景和多用途端口行为中的鲁棒性进行了分析,验证了其在实际应用中的可行性。


以上是对该研究的全面报告,涵盖了研究背景、方法、结果、结论及其科学价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com