面向程序感知的弱监督协作程序对齐框架研究

基于弱监督的协作式程序对齐框架:在指令视频相关性学习中的应用与评估

近年来,随着视频分析领域的快速发展,指令视频因其目标驱动的特性和与人类学习过程的内在关联,吸引了研究者越来越多的关注。相比于普通视频,指令视频包含多个细粒度的步骤,这些步骤具有不同的持续时间和时间位置,形成了更加复杂的程序结构。本研究提出了一种名为协作式程序对齐(Collaborative Procedure Alignment, CPA)的弱监督框架,用于在指令视频中进行程序感知的相关性学习。这一框架的核心特点在于无需依赖昂贵的步骤级标注,通过协作提取步骤信息并量化视频间的程序相关性,显著提升了指令视频相关性学习的效率和效果。

研究背景与问题提出

指令视频相关性学习(Video Correlation Learning, VCL)是视频理解任务中的关键技术之一,其目的是通过比较学习视频间的模式和关系。传统的VCL方法通常应用于普通视频,这些视频在语义和时间信息上具有较高的统一性和相关性,因此主要关注全局的粗粒度比较。然而,指令视频的复杂程序结构使得传统的VCL方法难以适用。

当前针对指令视频的程序学习方法通常需要细粒度的步骤级标注,这种标注需要明确步骤的语义标签及其时间边界,成本高且难以扩展。因此,如何在没有步骤级标注的情况下学习指令视频的内在程序知识,成为一个亟待解决的问题。

基于这一挑战,本研究提出了一种弱监督的协作式程序对齐框架CPA,旨在通过视频对的内部相关性协作提取步骤信息并量化其程序一致性,为指令视频相关性学习提供一种高效的工具。

论文来源与作者背景

该论文由上海交通大学电子工程系的He Tianyao等学者与联想研究院和中国电子信息技术研究院的研究人员合作完成,于2024年发表于《International Journal of Computer Vision》。研究得到了中国国家自然科学基金(No. U21B2013)的资助。

研究工作流程

1. 框架设计与工作流程

CPA框架由两个核心模块组成: 1. 协作式步骤挖掘模块(Collaborative Step Mining, CSM): - 利用视频帧的语义相似性和时间连续性,实现视频对的步骤分割。 - 通过动态编程提取视频对的相关性矩阵中的块对角结构,确保步骤分割的准确性和一致性。 2. 帧到步骤对齐模块(Frame-to-Step Alignment, FSA): - 在步骤级特征的基础上,计算一个视频的帧级特征与另一个视频的步骤级特征的对齐概率,用于量化两视频的程序相关性。

两个模块相辅相成,能够相互增强:CSM模块提供更精确的步骤级信息,为FSA模块的对齐计算提供支持;而FSA模块的反馈则进一步优化了CSM的步骤分割效果。

2. 数据处理与算法实现

CPA框架的实现流程包括以下步骤: - 首先,对输入视频的帧特征进行编码,生成帧级特征表示。 - 然后,利用CSM模块提取步骤边界,并通过帧到步骤的对齐计算程序一致性。 - 最后,结合视频对的帧级和步骤级特征,完成相关性计算。

算法中动态编程的引入显著提高了步骤分割的效率和准确性,帧到步骤对齐则通过概率矩阵进行动态规划优化,实现了高效的跨视频验证。

实验与结果分析

1. 实验设置

研究选取了多个指令视频任务,包括序列验证、少样本动作识别、时间动作分割和动作质量评估。在实验中,研究者通过对比多个先进方法,验证了CPA框架在不同任务上的性能优势。

2. 核心任务表现

序列验证

序列验证旨在判断两个指令视频是否遵循相同的程序。在Chemical Sequence Verification (CSV) 数据集上的实验表明,CPA框架在AUC和WDR指标上显著优于现有方法,表现出强大的程序一致性评估能力。

少样本动作识别

在Few-Shot Action Recognition任务中,CPA框架通过程序对齐显著提升了对少量样本的分类准确性。在CSV-FSL和Diving-FSL数据集上的实验结果显示,CPA在1-shot和5-shot场景下均超过了其他竞争方法。

时间动作分割

在Breakfast数据集上,CPA框架在无监督设置下表现出较高的时间动作分割精度(MoF),验证了其步骤挖掘模块的准确性。

动作质量评估

研究将CPA框架与现有的动作质量评估方法(如TSA)结合,在FineDiving数据集上实现了新的性能突破。这表明CPA框架在灵活的程序分割和质量评估任务中具有强大的适应性。

3. 创新扩展功能

灵活程序匹配

研究将CPA框架扩展至灵活程序匹配任务,允许用户设置程序匹配的灵活性阈值。实验表明,CPA框架在不同阈值下均表现出卓越的分类性能。

步骤组合检索

CPA框架还可用于检索视频中是否包含给定的步骤组合,并提供其时间位置。这一功能在实验操作监控和教育场景中具有广泛的应用潜力。

研究意义与应用价值

1. 科学价值

CPA框架为指令视频相关性学习提供了一种新颖的弱监督解决方案,其协作式步骤挖掘和帧到步骤对齐模块不仅在性能上超越了现有方法,还开辟了程序感知视频理解的新方向。

2. 应用价值

  • 教育与培训:CPA可用于教学视频的程序验证和错误操作预警,帮助学生掌握复杂实验步骤。
  • 体育评估:CPA在动作质量评估中的出色表现可应用于体育比赛的评分系统。
  • 工业操作监控:通过步骤组合检索功能,CPA可用于工业生产的操作流程监控和安全预警。

3. 方法亮点

  • 创新性:首次将弱监督协作式框架引入指令视频相关性学习任务。
  • 高效性:通过动态编程和概率对齐,显著降低了算法复杂度。
  • 灵活性:支持多种视频理解任务,且可扩展至更多高级功能。

结论

本研究提出的CPA框架通过协作式步骤挖掘与帧到步骤对齐实现了高效的指令视频相关性学习,在多个任务上表现出卓越的性能与适应性。这一框架不仅为程序感知的视频理解提供了新的技术支撑,也为视频分析领域的未来研究带来了新的启示。