这项研究的主要作者为Mononito Goswami、Konrad Szafer、Arjun Choudhry、Yifu Cai及Shuo Li,研究团队来自于Carnegie Mellon University的Auton Lab和University of Pennsylvania。此项研究发表在即将召开的国际机器学习会议(Proceedings of the 41st International Conference on Machine Learning, 2024)上。
本文主要关注时间序列分析领域,该领域在天气预测、心电图异常检测和软件部署异常检测等方面具有广泛的实际应用。然而,由于时间序列数据的特殊性,其建模通常要求大量领域专业知识、时间投入与特定任务的设计。相比自然语言处理和计算机视觉领域,时间序列分析模型的研究面临以下阻碍: 1. 公共时间序列数据集的缺乏与分散; 2. 数据特性多样化导致多数据集混合预训练的复杂性; 3. 时间序列模型评估基准尚处于初期阶段,特别是在资源有限、监督不足的情况下。
借鉴语言和视觉领域中基于Transformer架构的大规模预训练模型(如BERT、ViT等)的成功经验,作者开发并公开了首个专注于时间序列分析的大规模预训练模型家族——Moment。作者提出,该模型旨在填补上述研究空白,其核心目标为:通过统一的数据集和评估基准,支持对时间序列数据的多任务通用处理,包括预测(forecasting)、分类(classification)、异常检测(anomaly detection)和数据缺失的补全(imputation)。
为解决公共时间序列数据集分散的问题,作者从多个领域收集和整合了大规模时间序列数据,包括医疗、工程和金融等领域,构建了称为“Time Series Pile”的数据集。数据来源包括以下主要公共存储库: 1. Informer Long-Horizon Forecasting Datasets:包含9个数据集,用于评估长时间跨度预测任务。 2. Monash Time Series Forecasting Archive:包含58个公开短时间跨度数据集,涉及多种领域和时间分辨率。 3. UCR/UEA Classification Archive:159个数据集常用于时间序列分类任务。 4. TSB-UAD Anomaly Benchmark:1980条单变量时间序列数据集,覆盖人体、空间站、环境以及网络服务等多领域异常检测任务。
为了确保数据分割不受污染,研究团队参考已有数据集分割方法,并自行制定严格的训练集、验证集和测试集划分规则。
Moment模型采用基于Transformer架构的编码器,主要进行了以下适应性设计: 1. 时间序列数据的补丁(patching):输入时间序列数据被分解为不重叠的固定大小子序列(称为patch),每个patch通过线性投影映射到固定维度的embedding空间; 2. 掩膜学习(masking):采样随机掩码以覆盖部分patch,利用Transformer学习恢复被掩盖的patch; 3. 归一化:采用“Reversible Instance Normalization”方法,使模型能够处理具有不同分布特性的时间序列。
模型的核心由Transformer Encoder和轻量级的预测头(Prediction Head)组成,后者用于将高维patch embedding映射回原始时间序列或预测任务需要的目标维度。
模型的预训练采用“Masked Time Series Modeling”(掩膜时间序列建模),即通过对掩盖部分的时间序列进行精确重构来进行自监督学习。预训练模型分为三个规模:小型模型(Small, 40M参数)、中型模型(Base, 125M参数)和大型模型(Large, 385M参数)。所有参数均随机初始化。
作者选择了五类时间序列分析任务作为研究案例:短期预测、长期预测、分类、异常检测和数据补全。对于每项任务,作者分别进行了“零学习”(Zero-Shot)、“线性探针”(Linear Probing)和“端到端微调”(End-to-End Fine-Tuning)等实验,以衡量模型在监督有限或无监督场景下的表现。
实验结果显示,Moment模型(线性探针配置)的预测精度接近最新的时间序列预测模型PatchTST,并且在多个数据集和预测跨度设定中优于基于语言模型(LLMs)的预测方法,如Time-LMM和GPT4TS。
在M3和M4数据集上的实验结果表明,统计模型(如ARIMA和ETS)在零学习短期预测任务中表现更优。然而,Moment在部分数据集中取得了比ARIMA更低的SMAPE误差。
在UCR存档的91个时间序列分类数据集上,基于Moment的特征表示(无需数据特定微调)支持的SVM分类器取得了优异的分类性能,仅次于部分专门设计的时间序列分类模型。
在UCR异常检测数据集上的基准测试中,Moment模型在零学习和线性探针设置下的效果超过了TimesNet和GPT4TS等基准模型,并且在综合指标Adjusted F1 Score中表现出色。
在缺失数据补全任务中,Moment在所有ETT数据集上均以最低的重建误差拔得头筹。而在无监督情况下,Moment的补全性能也优于普通的插值方法。
研究发现,Moment能够捕获时间序列中的趋势、振幅、频率和相位变化等直观特性。其次,模型在分类任务中能够学习到互不重叠的类别表示。
作者进一步研究了模型扩展性能,结果表明更大的模型规模能够显著降低预训练损失。此外,Moment还能解决跨模态序列任务(如图像与文本分类),展现出广泛的通用性。
本研究展示了Moment模型在时间序列多任务通用处理中的强大性能,并提供了一种系统化的时间序列基准评估方法。研究成果不仅推动了时间序列模型训练与评估的开放性,也为未来多模态时间序列与文本模型融合提供了可能。
未来工作可探索Moment在多模态时间序列与文本基础模型领域的应用,并结合因果推理和专门的预测目标,进一步提升预测任务的表现。