基于视觉语言整合的零样本人-物交互检测研究
基于视觉-语言整合的零样本人-物交互检测研究 学术背景 人-物交互(Human-Object Interaction, HOI)检测是计算机视觉领域的一个重要研究方向,旨在识别图像中人与物体之间的交互行为。传统的HOI检测方法主要依赖于监督学习,即需要大量的人工标注数据来训练模型。然而,这种方法在面对未见过的物体类别时,泛化能力有限。此外,现实世界中的人-物交互种类繁多且复杂,手动标注所有可能的交互类别既耗时又费力。 近年来,随着视觉-语言模型(Vision-Language Models, VLM)的快速发展,零样本学习(Zero-Shot Learning)成为了一个热门研究方向。零样本学习的目标是让模型能够识别在训练过程中从未见过的类别。基于这一背景,作者提出了一种名为“知识整合到HO...