LDTrack:基于条件潜在扩散模型的服务机器人动态人员跟踪

基于扩散模型的服务机器人动态人员跟踪

学术背景

在复杂和拥挤的人类中心环境中,动态人员的跟踪是机器人技术中的一个具有挑战性的问题。由于存在遮挡、姿态变形和光照变化等类内差异,传统的跟踪方法往往难以准确识别和跟踪目标。现有的机器人跟踪方法通常依赖于独立的检测和跟踪系统,这种方法在计算效率和实时性方面存在瓶颈,尤其是在面对类内差异时,检测器的失败可能导致跟踪的中断。

为了解决这些问题,本文提出了一种基于条件潜在扩散模型(Conditional Latent Diffusion Models)的新型深度学习架构——潜在扩散跟踪(Latent Diffusion Track, LDTrack)。该架构通过捕捉时间上的人员嵌入(temporal person embeddings),能够适应人员外观随时间的变化,从而在复杂和拥挤的环境中实现高效的多目标跟踪。

论文来源

本文由 Angus FungBeno BenhabibGoldie Nejat 共同撰写,他们来自 University of TorontoAutonomous Systems and Biomechatronics Laboratory (ASBLab)。论文于2024年12月17日被接受,并于2025年发表在 International Journal of Computer Vision 上。

研究流程与结果

研究流程

  1. 架构设计

    • LDTrack 架构由训练和推理两个子系统组成。推理子系统通过 RGB 图像提取人员特征嵌入(person feature embeddings),并通过迭代跟踪细化网络(Iterative Track Refinement Network, ITRN)生成人员轨迹。训练子系统则通过潜在特征编码网络(Latent Feature Encoder Network, LFEN)将真实边界框转换为高维潜在空间表示,并通过潜在框扩散(Latent Box Diffusion, LBD)模块生成噪声化的框嵌入。
  2. 推理子系统

    • 自注意力特征提取网络(SFEN):使用 ResNet-18 和 Transformer 编码器提取人员特征嵌入。
    • 迭代跟踪细化网络(ITRN):通过 Transformer 解码器对噪声化的框嵌入进行迭代细化,生成人员轨迹。
  3. 训练子系统

    • 潜在特征编码网络(LFEN):将真实边界框转换为高维潜在空间表示。
    • 潜在框扩散(LBD):通过马尔可夫链驱动的扩散过程生成噪声化的框嵌入。
    • 迭代跟踪细化网络(ITRN):通过反向扩散过程生成人员边界框和类别预测。

主要结果

  1. 跟踪精度与准确度

    • LDTrack 在多个数据集上表现出色,尤其是在复杂和拥挤的环境中。在 InOutdoor (IOD) 数据集上,LDTrack 的 MOTA(Multiple Object Tracking Accuracy)达到了 78.6%,显著优于其他方法。
    • Kinect Tracking Precision (KTP) 数据集上,LDTrack 的 MOTA 达到了 92.7%,比现有方法提高了 5-62%。
  2. 多目标跟踪对比

    • LDTrack 在 MOT17MOT20 数据集上的表现也优于现有的多目标跟踪方法,尤其是在高密度人群环境中。
  3. 消融实验

    • 通过消融实验验证了 LDTrack 的设计选择,包括使用单一时间步的嵌入、500 个框嵌入和 288 维的潜在空间维度。

结论与意义

LDTrack 通过引入条件潜在扩散模型,能够在复杂和拥挤的环境中动态更新人员轨迹嵌入,适应人员外观的变化。该架构在多个数据集上表现出色,显著优于现有的跟踪方法,尤其是在面对遮挡、姿态变形和光照变化等类内差异时。LDTrack 的成功不仅展示了扩散模型在机器人跟踪任务中的潜力,还为未来的实时应用提供了新的思路。

研究亮点

  1. 创新性:LDTrack 是首个将条件潜在扩散模型应用于机器人动态人员跟踪的架构,能够有效处理类内差异。
  2. 高效性:通过联合检测和跟踪框架,LDTrack 在计算效率和实时性方面具有显著优势。
  3. 通用性:LDTrack 不仅在人类中心环境中表现出色,还能泛化到城市环境中的多目标跟踪任务。

未来工作

未来的研究将探索将对比学习方法(如 TIMCLR)与 LDTrack 结合,以进一步学习在类内差异下不变的人员表示。此外,还将在真实环境中对 LDTrack 进行实时测试,以验证其在实际应用中的性能。