本文作者团队包括 Qihang Zhou、Shibo He、Haoyu Liu、Jiming Chen 和 Wenchao Meng,该研究发表于 IEEE Transactions on Knowledge and Data Engineering 期刊的 2024 年 7 月刊(36 卷第 7 期)。研究主体由浙江大学工业控制技术国家重点实验室的研究人员完成,其中 Haoyu Liu 还同时隶属于网易游戏伏羲 AI 实验室。文章的 DOI 为 10.1109/TKDE.2024.3349613。
该研究属于多元时间序列异常检测(Multivariate Time Series Anomaly Detection, MTSAD)领域。在现代工业应用中,如智能工厂和智能电网,来自多个设备或传感器生成的大量多元时间序列数据通常包含异常模式,这些异常可能是潜在的故障或重要事件的标志。然而,现有的大量研究采用单类分类(One-Class Classification, OCC)方法,这一方法假设训练数据集仅包含正常样本。然而,在实际场景中,训练数据往往混杂正常与异常数据,导致这些方法性能显著下降。此外,手动清理训练数据集成本高昂,促使研究向无监督异常检测方法转变。
为了解决上述问题,作者提出了一种新方法——MTGFlow(基于动态图和实体感知的归一化流的无监督多元时间序列异常检测方法),以及其扩展版本 MTGFlow_Cluster。该研究旨在通过动态建模多实体之间的复杂依存关系和对实体特定分布的精细建模,克服 OCC 方法在实际应用中的局限性,实现在较高异常污染的训练数据条件下的精确异常检测。
本文研究主要包含以下几个流程模块:
研究面向多元时间序列数据集,数据点由多个实体(特征)组成,每个实体包含有时间序列值。采用滑窗法将数据片段化,以便保留时间相关性,并确定窗口级别的异常。
借助 自注意力机制(Self-Attention Mechanism) 构建动态图,捕捉多实体间的随时间变化的依存关系:
- 图节点表示实体,以滑窗序列的隐藏状态作为嵌入;
- 按查询-键机制计算两实体间的关系得分,并以此生成动态图的邻接矩阵。
该动态图提供了捕捉复杂依存关系的能力,避免传统静态模型忽略时变交互关系的不足。
时间维度相关性通过 循环神经网络(Recurrent Neural Network, RNN) 进行编码: - 利用滑窗序列的每个时间步(hidden states)捕获时间相关性; - 结合动态图的图卷积操作(Graph Convolution),将动态结构拓扑嵌入数据表达,以生成时空条件。
研究采用 归一化流(Normalizing Flow) 对多元时间序列进行密度估计以标记潜在异常。关键在于设计了两种细粒度密度估计模型:
- 实体感知的归一化流 (Entity-Aware Normalizing Flow): 针对每个实体独立指定目标分布(多元正态分布),以更精细地刻画每个实体特定的稀疏特性;
- 群体感知的归一化流 (Cluster-Aware Normalizing Flow): 通过聚类算法(如 K-Shape)将具有相似特性的实体划分为群组,并为每个群组设置目标分布,同时保留组间的差异性。
所有模块联合优化,通过最大似然估计(Maximum Likelihood Estimation, MLE)实现目标函数的优化。研究还利用内建的滑窗异常分数阈值机制(基于四分位距)为检测提供自动决策能力。
研究在多个公共多元时间序列数据集(SWaT、Wadi、PSM 等)上评估了方法的性能,并与其他 SOTA 方法(GANF、DeepSVDD 等)进行对比: - 在带有较高异常污染的数据集上,MTGFlow 和 MTGFlow_Cluster 均实现了 AUROC 的显著提升,其中,在 SWaT 上超越了 GANF 接近 5% 的 AUROC 值;
- 在 OCC 环境下,方法表现与无监督检测环境下基本一致,表现出对异常污染的强鲁棒性。
通过逐步移除模型模块,验证了每个模块的必要性。 - 动态图结构学习提高了捕获复杂依存关系的能力;
- 实体感知模型避免了因将所有实体映射到相同分布而导致的描述能力下降。
研究创新性设计了基于动态图结构构建和实体/群体感知归一化流的多元时间序列异常检测方法,为高污染环境下的异常检测提供了强有力的支持。其科学与应用价值如下: - 科学价值: 弥补了传统 OCC 方法在异常污染环境中性能下降的缺陷,为无监督时间序列分析树立了新的标杆;
- 实际意义: 适用于高维工业数据场景(如智能工厂、智能配电网等),减少异常标注成本,提高工业故障检测效率。
该研究的核心方法已经验证了其优越性,未来可能的延伸方向包括: - 更多流模型通用性研究: 探索新型归一化流方法在多元时间序列中的适用性。
- 实时检测部署: 提高方法的计算效率以实现更高效的实时异常检测。
- 跨领域应用: 将方法扩展至其他复杂时空数据(如交通监控、金融市场等)。