通过高阶运动流进行共轭视觉表征的持续学习

基于高阶运动流的共轭视觉表征持续学习:CMOSFET模型的研究

学术背景

在人工智能和计算机视觉领域,如何从连续的视觉数据流中进行持续学习(Continual Learning)是一个长期存在的挑战。传统的机器学习方法通常依赖于独立同分布(i.i.d.)的假设,即所有训练数据在训练时是静态且可用的。然而,现实世界中的视觉数据往往是连续的、非独立同分布的,这给模型的训练带来了巨大的困难。此外,现有的无监督学习方法大多依赖于大规模的离线训练数据集,这与人类和动物通过连续体验环境进行学习的方式截然不同。

为了解决这些问题,Simone Marullo、Matteo Tiezzi、Marco Gori和Stefano Melacci等研究人员提出了一种新的无监督持续学习模型,名为CMOSFET(Continual Motion-based Self-supervised Feature Extractor)。该模型的核心思想是通过运动信息来引导特征提取,从而实现从单一视频流中进行在线学习。运动信息在视觉感知中具有重要作用,早期的心理学研究(如Gestalt原则)表明,运动是视觉感知的基本线索之一。因此,CMOSFET模型通过估计多层次的运动流(从传统的光流到高阶运动流)来引导特征的提取,从而实现对视觉表征的持续学习。

论文来源

这篇论文由Simone Marullo(佛罗伦萨大学信息工程系)、Matteo Tiezzi(意大利技术研究院)、Marco Gori和Stefano Melacci(锡耶纳大学信息工程与数学系)共同撰写,并于2025年发表在Neural Networks期刊上。论文的标题为《Continual Learning of Conjugated Visual Representations through Higher-Order Motion Flows》,探讨了如何通过高阶运动流实现视觉表征的持续学习。

研究流程

1. 模型设计

CMOSFET模型的核心是一个双分支神经网络架构,分别用于提取像素级特征和估计像素级运动流。模型的输入是一个连续的帧序列,每一帧的分辨率为W×H。模型的目标是从视频流中逐步提取出鲁棒的特征,并在多个抽象层次上估计运动流。

1.1 多层次特征流

CMOSFET模型在多个层次上提取特征和运动流。每一层的特征提取器(f^l_t)接收来自上一层的输出,并生成当前层的特征表示。同时,每一层的运动流估计器(δ^l_t)基于当前层和前一层的特征,估计出该层的运动流。通过这种方式,模型不仅能够估计传统的低阶光流,还能估计高阶运动流,这些高阶运动流通常与更抽象的特征相关联。

1.2 特征与运动的共轭关系

CMOSFET模型的一个重要创新在于特征与运动流的共轭关系。具体来说,模型通过一个共轭损失函数(L^l_conj)来约束特征和运动流的一致性。该损失函数由三个部分组成:(i)当前层的特征与运动流的一致性;(ii)当前层的特征与第一层运动流的一致性;(iii)当前层的运动流与上一层的特征的一致性。通过这种方式,模型能够确保特征和运动流在不同层次上保持一致。

2. 自监督对比学习

为了避免模型陷入平凡解(如生成空间上均匀的特征),CMOSFET引入了一种自监督的对比损失函数(L^l_self)。该损失函数基于运动信息来确定正样本对和负样本对。具体来说,正样本对由运动模式相似的像素组成,而负样本对则由运动模式不同的像素组成。通过这种方式,模型能够通过运动信息来增强特征的判别能力。

2.1 采样策略

由于对比损失的计算复杂度较高,CMOSFET采用了一种基于运动和特征的采样策略。具体来说,模型根据运动信息和特征的激活情况来选择一组像素进行对比学习。这种采样策略不仅能够降低计算成本,还能确保模型关注到视频流中的重要区域。

3. 时间上的学习

CMOSFET模型通过在线学习的方式处理每一对连续帧。模型通过一个快速学习者(GRA)和一个慢速学习者(EMA)来实现时间上的稳定性。快速学习者通过梯度下降更新参数,而慢速学习者通过指数移动平均(EMA)的方式更新参数。通过这种方式,模型能够在保持学习能力的同时,减少灾难性遗忘(Catastrophic Forgetting)的问题。

主要结果

1. 实验设置

CMOSFET模型在多个视频流上进行了评估,包括合成的3D环境视频和真实世界的视频。实验的主要目标是通过像素级分类任务来评估模型的特征提取能力。具体来说,模型在无监督学习阶段提取特征,并在后续的评估阶段使用这些特征进行分类。

2. 定量结果

实验结果表明,CMOSFET模型在多个视频流上均优于现有的无监督持续学习模型。特别是在真实世界视频(如rat和horse)上,CMOSFET的表现显著优于其他模型。此外,CMOSFET模型的参数数量较少,仅为2.3M,远低于其主要竞争对手(17.8M),这表明CMOSFET能够生成更紧凑且具有判别性的特征表示。

3. 定性结果

通过可视化分析,研究人员发现CMOSFET模型能够准确地估计出视频中的运动流,并生成具有判别性的特征表示。特别是在复杂背景下的视频中,CMOSFET能够有效地分离出目标物体,并在分类任务中表现出色。

结论与意义

CMOSFET模型通过引入多层次运动流和自监督对比学习,成功实现了从单一视频流中进行无监督持续学习。该模型不仅能够生成具有判别性的特征表示,还能在多个抽象层次上估计运动流。实验结果表明,CMOSFET在多个视频流上的表现优于现有的无监督持续学习模型,并且在真实世界视频上也表现出色。

研究的亮点

  1. 多层次运动流:CMOSFET模型通过估计多层次的运动流,实现了对视觉表征的持续学习。这一创新使得模型能够从不同抽象层次上捕捉视频中的运动信息。
  2. 自监督对比学习:通过引入基于运动信息的对比损失函数,CMOSFET能够避免平凡解,并生成具有判别性的特征表示。
  3. 在线学习与时间稳定性:CMOSFET通过快速学习者和慢速学习者的结合,实现了在线学习的时间稳定性,减少了灾难性遗忘的问题。

未来工作

尽管CMOSFET模型在多个视频流上表现出色,但仍存在一些局限性。例如,模型在处理强运动背景或静态场景时可能会遇到困难。未来的研究可以进一步探索如何结合更先进的持续学习策略,以应对更长的视频流或更多的物体类别。此外,研究人员还可以探索如何将CMOSFET应用于其他视觉任务,如目标检测和语义分割。

总结

CMOSFET模型通过引入多层次运动流和自监督对比学习,成功实现了从单一视频流中进行无监督持续学习。这一研究不仅为计算机视觉领域的持续学习提供了新的思路,还为未来的人工智能系统设计提供了重要的参考。