具有双记忆模块的鲁棒多尺度特征提取框架用于多变量时间序列异常检测

随着深度学习技术的快速发展,数据挖掘和人工智能训练技术在实际应用中的重要性日益显现。尤其在多变量时间序列异常检测领域,现有方法尽管表现出色,但在面对含有噪声或污染的数据时,依旧存在显著的问题。基于此,本文提出了一种具有双内存模块的多尺度特征提取框架,用以解决上述挑战性问题。

研究背景

多变量时间序列(Multivariate Time Series, MTS)数据通常涉及多个传感器在物联网(IoT)应用中的实时运行状态。有效分析这些数据能够揭示隐藏的信息,对异常情况进行预警,以确保系统的安全运行。然而传统的异常检测方法,如局部异常因子(Local Outlier Factor, LOF)、单一分类支持向量机(One-Class Support Vector Machine, OCSVM)和孤立森林(Isolation Forest, IF)等,未能很好地捕捉时间序列数据的复杂结构和非线性关系。此外,基于重构的方法也存在典型重建异常数据的问题,这使得正常数据与异常数据的区分变得困难。因此,新的高效方法亟待开发。

本研究提出的方法架构

论文来源与作者

这篇论文由Bing Xue、Xin Gao、Baofeng Li、Feng Zhai、Jiansheng Lu、Jiahao Yu、Shiyuan Fu和Chun Xiao等人联合撰写。这些作者分别来自北京邮电大学的人工智能学院、中国电力科学研究院有限公司、天津大学电气与信息工程学院及国家电网山西营销服务中心。文章于2024年5月20日发表在《Neural Networks》期刊上。

研究流程与方法

工作流程

本文提出的多尺度特征提取框架包含多个步骤:

  1. 连续邻近窗口作为输入:为了提取局部和长期依赖关系信息,设计了连续邻近窗口作为输入。
  2. 双内存增强编码器:提出了一种双内存增强的编码器,用以提取全局典型模式和局部共性特征。这确保了正常数据的重建能力,同时抑制了异常数据的泛化能力。
  3. 多尺度融合模块:通过融合不同语义信息和时间依赖的潜在变量,用这些重建的潜在变量来重建样本以进行异常检测。

实验方法与数据

本文采用了五个不同领域的公开数据集,通过实验验证了所提方法的有效性。分别是:

  • MSL(Mars Science Laboratory)
  • SMAP(Soil Moisture Active Passive Satellite)
  • SMD(Server Machine Dataset)
  • PSM(Pooled Server Metrics)
  • SWAT(Secure Water Treatment)

主要结果

实验结果表明,本文提出的方法在五个不同的数据集上均显著优于现有的16种基准方法。具体如下:

  1. MSL数据集:AUC-ROC值达到0.6523,FC1值为0.5581,AUC-F1PA%K值为0.3731。
  2. SMAP数据集:AUC-ROC值为0.5073,FC1值为0.2372,AUC-F1PA%K值为0.2782。
  3. SWAT数据集:AUC-ROC值为0.8452,FC1值为0.5960,AUC-F1PA%K值为0.7964。
  4. PSM数据集:AUC-ROC值为0.7581,FC1值为0.6350,AUC-F1PA%K值为0.6201。
  5. SMD数据集:AUC-ROC值达到0.7293,FC1值为0.5125,AUC-F1PA%K值为0.3216。

研究结论

本文研究表明,通过设计连续邻近窗口作为输入,使用双内存增强编码器和多尺度融合模块,能够在多变量时间序列异常检测任务中显著提高检测的准确性和稳定性。设计的特征提取模块能够很好地处理真实数据中存在的噪声和异常数据,使得重建的正常数据更精准,从而将异常更好地区分出来。

研究亮点

  1. 多尺度特征提取:框架融合了不同语义信息的多尺度特征,使提取出的特征更加全面和鲁棒。
  2. 双内存增强编码器:通过融合全局和局部的典型特征,提高了模型对正常样本的重建能力,同时很好地抑制了异常的数据。
  3. 对比实验丰富:通过多个公开数据集的丰富实验验证,展示了所提方法在不同领域和不同数据上的适用性和优越性。

其他有价值的信息

本文还设计了一个新的数据预处理模块,可以自适应地学习数据的均值和方差,从而更好地处理随时间变化的数据特征。同时,采用了灵活调整的滑动窗口技术,以便更准确地提取时间序列的长短期依赖关系。 本文提出的多尺度特征提取框架为多变量时间序列异常检测任务提供了一种新的有效解决方案,不仅在科学研究上具有重要价值,同时也为工业界的实际应用提供了强有力的技术支撑。