分享自:

利用异常知识进行时间序列异常检测的CutAddPaste方法

期刊:Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '24)DOI:10.1145/3637528.3671739

本文介绍了一篇关于时间序列异常检测的研究论文,题为《cutaddpaste: time series anomaly detection by exploiting abnormal knowledge》,由Rui Wang、Xudong Mou、Renyu Yang、Kai Gao、Pin Liu、Chongwei Liu、Tianyu Wo和Xudong Liu共同撰写,发表于2024年8月25日至29日在西班牙巴塞罗那举行的第30届ACM SIGKDD知识发现与数据挖掘会议(KDD ‘24)。该研究由北京航空航天大学、香港中文大学、中国地质大学和快手公司等机构的研究人员合作完成。

研究背景与动机

时间序列异常检测(Time Series Anomaly Detection, TSAD)是数据挖掘和机器学习领域的一个重要研究方向,广泛应用于工业设备监控、网络入侵检测、患者生命体征监测等领域。异常检测的主要挑战在于异常事件的稀有性和样本类别的不平衡性,导致异常标注成本高昂且困难。现有的异常检测方法大多依赖于正常性假设,忽略了已标注的异常样本。尽管基于异常假设的方法可以通过数据增强技术生成伪异常样本,但这些方法通常只关注点异常,缺乏对复杂异常模式的建模能力。

本文提出的cutaddpaste方法旨在通过数据增强策略生成伪异常样本,尽可能利用异常的先验知识,从而提升时间序列异常检测的性能。该方法的核心思想是通过切割、添加线性趋势项和粘贴操作,生成能够近似多种异常类型的伪异常样本,包括点异常和模式异常。

研究方法与流程

cutaddpaste方法的主要流程包括以下几个步骤:

  1. 数据预处理:首先对原始时间序列进行标准化处理,使其均值为0,方差为1。然后使用滑动窗口将时间序列分割为多个子序列样本。

  2. 数据增强:通过cutaddpaste模块生成伪异常样本。具体操作包括:

    • 切割:从随机位置切割一个子序列片段。
    • 添加:为切割的片段添加线性趋势项。
    • 粘贴:将处理后的片段粘贴到另一个随机位置的样本中。
  3. 模型训练:将生成的伪异常样本与真实样本一起输入到时间卷积网络(TCN)中进行特征提取和投影。TCN由三个时间卷积块组成,每个块包含一个1D卷积层、批归一化层、ReLU激活函数和最大池化层。投影层将提取的特征映射到2维空间,并通过交叉熵损失函数进行优化。

  4. 异常检测:在测试阶段,模型输出每个子序列样本的异常得分,通过与预设阈值进行比较,判断样本是否为异常。

主要结果

实验在四个标准基准数据集(AIOps、UCR、SWAT和WADI)上进行,结果表明cutaddpaste方法在时间序列异常检测任务中优于现有的最先进方法。具体来说,cutaddpaste在AIOps、UCR、SWAT和WADI数据集上的RPA F1得分分别为77.41%、68.22%、45.86%和26.58%,显著优于其他基线方法。

结论与意义

本文提出的cutaddpaste方法首次实现了对时间序列中多种异常类型(包括点异常、模式异常和相关异常)的复杂数据增强,显著提升了时间序列异常检测的性能。该方法不仅能够有效检测点异常,还能够处理复杂的模式异常,如形状异常、季节性异常和趋势异常。实验结果表明,cutaddpaste在多个真实世界数据集上表现出色,证明了其在时间序列异常检测中的有效性和鲁棒性。

研究亮点

  1. 创新性:cutaddpaste是首个能够处理复杂异常增强的时间序列异常检测方法,超越了传统的点异常注入方法。
  2. 广泛适用性:该方法不仅适用于单变量时间序列,还能够处理多变量时间序列中的相关异常。
  3. 实验验证:在四个真实世界数据集上的实验表明,cutaddpaste在多种异常类型下均表现出色,显著优于现有方法。

其他有价值的内容

本文还探讨了不同评估指标对异常检测性能的影响,推荐使用RPA(Revised Point Adjusted)指标作为公平的评估标准。实验结果表明,传统的点调整(PA)指标容易高估模型性能,而RPA指标能够更准确地反映模型的异常检测能力。

总的来说,cutaddpaste方法为时间序列异常检测提供了一种新颖且强大的数据增强技术,未来有望成为该领域的基础工具,推动更强大的异常检测模型的开发。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com