这项研究的主要作者包括 Mingtian Tan(University of Virginia)、Mike A. Merrill(University of Washington)、Vinayak Gupta(University of Washington)、Tim Althoff(University of Washington)、Thomas Hartvigsen(University of Virginia)。论文发表于 38th Conference on Neural Information Processing Systems (NeurIPS 2024)。
这项研究主要聚焦于时间序列预测(time series forecasting)领域。时间序列分析是一种广泛应用于疾病传播预测、零售销售分析、医疗保健与金融等领域的关键问题。而近年来,关于将大规模语言模型(LLMs, large language models)应用于时间序列预测的研究开始吸引了广泛关注,例如使用 GPT-2 和 LLaMA 等模型改造结构、调整预训练权重以适应时间序列数据。
这些研究的理论基础在于语言模型擅长处理语言序列中的依赖关系,或许能够泛化到时间序列任务。然而,作者指出,大规模语言模型和时间序列预测之间的直接联系尚未被详细探讨。本文的核心目标是评估大规模语言模型在时间序列预测中是否提供了实际的性能提升,同时探讨这些方法的计算代价及其潜在的研究价值。
本文提出了一个根本的假设:若 LLM 在时间序列预测任务中的表现并无显著提升,但其计算开销巨大,那么当前流行的 LLM 应用可能并不适合传统时间序列任务。研究旨在帮助研究者避免未经验证的 LLM 应用从而选择更具有价值的解决方案。
研究分为以下几个关键步骤,每一部分进行了详细实验与分析:
作者选择了三种当前最流行且备受关注的 LLM 时间序列预测方法:
1. OneFitAll [49]:基于 GPT-2 的预测方法,采用实例归一化(instance norm)和分段(patching)输入时间序列,通过线性层得到输入表示。模型的多头注意力(multi-head attention)和前馈层被冻结,仅对位置嵌入与层归一化进行优化。 2. Time-LLM [14]:将时间序列分割为小块后,用低维度 word embedding 对齐后输入 LLaMA,并经线性层完成预测,语言模型权重一直冻结。 3. Calf [21]:基于 GPT-2,使用 “textual branch” 和 “temporal branch”,通过交叉注意力对齐时间序列与预训练 embedding,同时添加了强制约束。
三种方法的核心思路是通过对时间序列嵌入(encoding)的调整,将其对齐至适应 LLM,并利用预训练模型的语言能力进行预测。
研究设计了三种消融(ablation)策略以分析 LLM 的实际影响:
- w/o LLM:完全移除 LLM,仅保留预测模型的基础结构。
- LLM2Attn:将 LLM 替换为一个随机初始化的单层多头注意力机制。
- LLM2Trsf:将 LLM 替换为一个随机初始化的单个 Transformer 块。
通过这三种修改,作者探究了 LLM 模块在时间序列预测中的核心作用及其必要性。
研究使用的基准数据集涵盖 13 个标准和 5 个扩展真实数据集,包括 ETTh1、ETTm2、Electricity、Weather 等外加五个未被上述参考方法研究的数据集(如 COVID Deaths、Exchange Rate)。数据集采样率从每小时到每周不等,数据点从数千到数百万。模型采用均绝对误差(MAE)和均方误差(MSE)进行评价,以衡量预测结果与真实数据间的偏差。
研究表明,经过消融的较为简单的模型与原始 LLM 方法的预测性能相当甚至更优。在 13 个数据集中,消融后的模型在 MAE 和 MSE 上表现优于 Time-LLM、Calf 和 OneFitAll 的比例分别为 26/26、22/26 和 19/26,表明 LLM 并未显著改善性能。
LLM 的参数量远超消融模型,例如 Time-LLM 使用了 6642 百万参数,而其消融模型仅有 0.198 百万。在训练时间上,消融模型最多可将时间减少三个数量级(例如从 3003 分钟降至 2.17 分钟)。推理时间也显示类似趋势,消融模型显著更高效。
研究发现,随机初始化的 LLM 表现并不逊色于经过预训练的 LLM,表明语言预训练对时间序列预测的帮助十分有限。例如随机初始化 + 微调的模型在 8 个数据集中有 8 个 MAE 胜出,而预训练 + 微调仅胜出 3 个。
LLM 方法对输入序列的随机打乱并不敏感,这表明其其实并未成功建模出时间序列的递序性。
即使在小样本训练场景下,消融模型的表现仍然与 LLM 相当甚至更优。例如 Time-LLM 中的 LLaMA 方法在 7 个评估任务中仅战胜消融 8 次,消融模型表现不输。
研究识别出较为简单的时间序列编码策略可以取得与 LLM 相媲美的效果。例如基于单层注意力机制和分段的编码方法(称为 Pattn)在小型数据集上甚至优于 LLM。这表明,性能提升更多归因于简单的编码策略,而非 LLM 模块本身。
研究总结了以下观点:
1. 大规模语言模型对时间序列预测作用有限,其在这一领域的直接应用既未充分利用模型强大的语言推理能力,又带来了高昂的计算代价。
2. 现有简单模型的潜力巨大,通过优化时间序列分段、注意力机制和独立编码策略,可实现甚至优于当前 LLM 方法的效果。
3. 研究意义:研究为时间序列预测方法提供了科学指导,帮助社区避免盲目跟随 LLM 热潮,将精力放在更有效和高性价比的模型优化方向上。
以上为本研究的主要内容。