基于关键点交互Transformer的结构依赖学习用于通用哺乳动物姿态估计
通用哺乳动物姿态估计的研究进展 研究背景与问题提出 在计算机视觉领域,姿态估计是一项基础且重要的任务,其目标是定位图像中目标对象的关键点位置。近年来,人类姿态估计取得了显著进展,但动物姿态估计(Animal Pose Estimation)的研究仍处于初步阶段。相比于人类姿态估计,动物姿态估计面临更大的挑战,主要体现在以下几个方面: 物种多样性:不同物种之间的外观和姿态差异巨大,例如猫科动物中的豹和家猫在外形、大小和颜色上存在显著区别。 数据稀缺性:现有的动物姿态数据集规模远小于人类姿态数据集。例如,最大的哺乳动物姿态数据集AP-10k包含约10,000张图像,而COCO数据集则包含超过200,000张标注图像。 姿态变化复杂性:动物的姿态变化范围更大,例如羚羊站立时的鼻子与眼睛距离较近,而...