基于视觉语言整合的零样本人-物交互检测研究

基于视觉语言整合的零样本人-物交互检测研究

基于视觉-语言整合的零样本人-物交互检测研究 学术背景 人-物交互(Human-Object Interaction, HOI)检测是计算机视觉领域的一个重要研究方向,旨在识别图像中人与物体之间的交互行为。传统的HOI检测方法主要依赖于监督学习,即需要大量的人工标注数据来训练模型。然而,这种方法在面对未见过的物体类别时,泛化能力有限。此外,现实世界中的人-物交互种类繁多且复杂,手动标注所有可能的交互类别既耗时又费力。 近年来,随着视觉-语言模型(Vision-Language Models, VLM)的快速发展,零样本学习(Zero-Shot Learning)成为了一个热门研究方向。零样本学习的目标是让模型能够识别在训练过程中从未见过的类别。基于这一背景,作者提出了一种名为“知识整合到HO...

基于丰富归纳偏见的视觉语言模型学习

Learning with Enriched Inductive Biases for Vision-Language Models 研究背景与问题提出 近年来,视觉-语言模型(Vision-Language Models, VLMs)在计算机视觉和自然语言处理领域取得了显著进展。这些模型通过大规模图像-文本对进行预训练,能够构建统一的多模态表示空间,从而在多种下游任务中表现出色。然而,在少样本学习(few-shot learning)场景下,如何有效地调整这些模型以适应特定任务,同时保持良好的泛化能力,仍然是一个亟待解决的问题。 现有方法通常依赖于提示工程(prompt engineering)或参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)策略...

GL-MCM:全局和局部最大概念匹配的零样本分布外检测

GL-MCM:全局和局部最大概念匹配的零样本分布外检测

GL-MCM: 全局与局部最大概念匹配用于零样本分布外检测 研究背景与问题提出 在现实世界中,机器学习模型的应用环境往往面临数据分布的变化,例如新类别的出现。这种现象被称为“分布外检测”(Out-of-Distribution Detection, OOD)。为了确保模型在未知数据上的可靠性,OOD 检测成为一项关键任务。然而,传统的单模态监督学习方法虽然在特定任务上表现良好,但其训练成本高昂,且难以适应多样化的应用场景。 近年来,基于 CLIP(Contrastive Language–Image Pre-training)的零样本分布外检测方法引起了广泛关注。CLIP 是一种多模态预训练模型,能够通过自然语言监督学习视觉特征。尽管现有方法如 MCM(Maximum Concept Mat...

利用通用代理模型进行样本选择来应对标签噪声

学术背景与问题提出 随着深度神经网络(Deep Neural Networks, DNNs)的快速发展,视觉智能系统在图像分类、目标检测、视频理解等任务中取得了显著进展。然而,这些突破依赖于高质量标注数据的收集,而标注过程通常耗时且昂贵。为了应对这一问题,研究人员开始利用大规模的网络数据进行训练,但这些数据往往带有噪声标签(label noise),这会影响深度神经网络的性能。噪声标签的存在会导致训练数据和测试数据分布不一致,从而影响模型在干净测试数据上的泛化能力。 为了解决这一问题,样本选择(sample selection)成为一种有效的方法。其核心思想是通过某种标准从所有训练样本中分离出干净的样本。以往的方法主要依赖于“小损失准则”(small loss criterion),即认为损...