基于视觉语言整合的零样本人-物交互检测研究

基于视觉语言整合的零样本人-物交互检测研究

基于视觉-语言整合的零样本人-物交互检测研究 学术背景 人-物交互(Human-Object Interaction, HOI)检测是计算机视觉领域的一个重要研究方向,旨在识别图像中人与物体之间的交互行为。传统的HOI检测方法主要依赖于监督学习,即需要大量的人工标注数据来训练模型。然而,这种方法在面对未见过的物体类别时,泛化能力有限。此外,现实世界中的人-物交互种类繁多且复杂,手动标注所有可能的交互类别既耗时又费力。 近年来,随着视觉-语言模型(Vision-Language Models, VLM)的快速发展,零样本学习(Zero-Shot Learning)成为了一个热门研究方向。零样本学习的目标是让模型能够识别在训练过程中从未见过的类别。基于这一背景,作者提出了一种名为“知识整合到HO...

Asyco: 一种用于部分标注学习的非对称双任务共训练模型

Asyco: 一种用于部分标注学习的非对称双任务共训练模型

深度学习中非对称双任务协同模型改进部分标签学习的研究 研究背景 在深度学习领域,监督学习已成为众多人工智能任务的核心方法。然而,训练深度神经网络需要大量准确标注的数据,而这类数据的构建往往成本高昂且耗时。弱监督学习(Weakly Supervised Learning)作为一种有效的替代方法近年来引起了广泛关注,其中部分标签学习(Partial Label Learning, PLL)是弱监督学习的一种典型问题。它假定每个训练实例被一个候选标签集(Candidate Label Set)标注,该标签集中包含真实标签和若干错误标签。由于候选标签中存在标签歧义问题,部分标签学习成为一个充满挑战的领域。 在部分标签学习的研究中,一个关键目标是消解这种标签歧义,正确识别每个样本的真实标签。以往的方法...

通过替代双教师自调教学实现弱监督语义图像分割

通过替代双教师自调教学实现弱监督语义图像分割

通过替代双教师自调教学实现弱监督语义图像分割 背景介绍 随着计算机视觉领域的不断发展,语义分割成为了其中一个重要而活跃的研究方向。传统的语义分割方法依赖手工标记的像素级标签,然而获取这些精确标注通常需要大量的人力和时间成本。为了解决这一问题,近年来提出了弱监督语义分割(Weakly Supervised Semantic Segmentation,WSSS),其目标是在最小化人工标注的前提下,利用弱标注信息(如图像标签、边框、涂鸦等)实现高效的语义分割。 本文研究的是基于图像级标签的弱监督语义分割方法,这是所有 WSSS 类别中最具挑战性的任务。当前方法主要依赖于图像分类模型生成伪分割掩膜(Pseudo Segmentation Masks,PSMs),但这些模型特征主要用于分类任务,导致伪...