无监督时间一致性学习用于视频对象的一致性删除

无监督时间一致性学习用于视频对象的一致性删除

无监督时间一致性学习用于视频对象的一致性删除 研究背景和动机 在视频编辑和修复领域,视频对象删除(Video Object Removal)是一个重要的任务。它的目标是在整个视频中擦除目标对象,并用合理的内容填补空洞。现有的解决方案主要分为两个子任务:(1) 掩膜跟踪(Mask Tracking)和 (2) 视频填充(Video Completion)。然而,这两者通常被视作独立的问题,并分别处理。这种划分导致系统变得过于复杂,需要多个模型的协同工作,不仅增加了训练和部署的难度,也不利于实际应用。 论文指出掩膜跟踪和视频填充在像素级时间对应方面有着强烈的内在联系,利用这些联系可以简化算法复杂度并有助于实际部署。因此,作者提出了一种新的统一视频对象删除(Unified Video Object...

CLASH:基于互补学习与神经架构搜索的步态识别框架

CLASH:基于互补学习与神经架构搜索的步态识别框架

CLASH:基于互补学习与神经架构搜索的步态识别框架 研究背景 步态识别是一种通过个体的行走模式进行身份识别的生物识别技术。这种技术由于可以在远距离无须个体合作的条件下进行,因此在安全检查、视频检索和身份识别等领域有着广泛的应用。然而,基于人影轮廓的识别方法存在一些问题:二值化的稀疏边界表示缺乏丰富的时空信息,使得轮廓大部分像素对步态模式不敏感。为了提高对步态模式的敏感性,同时保持识别的鲁棒性,本文引入了一种基于神经架构搜索的互补学习(Complementary Learning with Neural Architecture Search, CLASH)框架,旨在解决上述问题。 论文来源 本文由Huanzhang Dou、Pengyi Zhang、Yuhan Zhao、Lu Jin和Xi...

基于标签内容描述的透明化深度图像美学评估

基于标签内容描述的透明化深度图像美学评估

基于标签内容描述的透明化深度图像美学评估 学术背景 随着社交媒体平台如Instagram和Flickr的普及,图像美学评估(Image Aesthetics Assessment, IAA)模型的需求日益增长。这些模型不仅可以帮助社交网络服务提供商优化图片排序或推荐结果,还能帮助普通用户管理相册、选择最佳照片,甚至在拍摄和编辑过程中提供指导。然而,如何构建一个稳健的IAA模型一直是一个挑战,因为图像美学的复杂性包括对象、摄影技术等多个因素。 研究动机 现有的深度学习方法虽然在IAA中表现出色,但其内部机制仍不明确。大多数研究通过隐性学习语义特征来预测图像美学,但这些方法未能直接解释这些特征具体代表了什么。本文的核心目标是创建一个更透明的IAA框架,引入可解释的语义特征,以人类可读的标签描述图...

平衡特征对齐与统一性用于小样本分类

平衡特征对齐与统一性用于小样本分类

平衡特征对齐与统一性来解决小样本分类问题 背景与动机 少样本学习(Few-Shot Learning, FSL)的目标是在只有少量新类别(novel classes)样本的条件下,正确地对新样本进行识别。现有的少样本学习方法主要通过最大化特征表示与其对应标签之间的信息,来学习从基础类别(base classes)中可转移的知识。然而,这种方法可能会出现“监督崩溃”(supervision collapse)的问题,因为它对基础类别存在偏差。本文提出了一种解决方案,通过保留数据的内在结构,并学习一种适用于新类别的广义模型。本研究依据信息最大化原则,最大化样本与其特征表示之间以及特征表示与其类别标签之间的互信息(mutual information, MI),以在特征表示中平衡类特异性信息的捕获...

基于负面确定性信息的多重实例学习用于弱监督目标检测与分割

基于负面确定性信息的多重实例学习用于弱监督目标检测与分割

Negative Deterministic Information-Based Multiple Instance Learning for Weakly Supervised Object Detection and Segmentation 背景介绍 在过去的十年中,计算机视觉领域取得了显著进展,特别是在对象检测(Object Detection)和语义分割(Semantic Segmentation)方面。然而,大多数设计的算法和模型都严重依赖于精确的标注数据,这在实际应用中耗费大量人力和时间。弱监督学习(Weakly Supervised Learning,WSL)因其仅需粗粒度的标注数据(如图像级标注)解决了这一问题。在此背景下,弱监督对象检测(Weakly Supervised...

基于信息感知的Transformer展开网络促进高光谱和多光谱图像融合

基于信息感知的Transformer展开网络促进高光谱和多光谱图像融合

基于信息感知的Transformer展开网络促进高光谱和多光谱图像融合 背景介绍 高光谱图像(Hyperspectral Image, HSI)由于其包含多个波段的光谱信息,在材料识别、图像分类、目标检测和环境监测等遥感应用中发挥着重要作用。然而,由于传感器硬件的限制,实际的成像过程中存在空间分辨率和光谱分辨率之间的权衡问题。具体来说,成像传感器只能提供丰富光谱信息的图像(低分辨率的HSI,LR-HSI),或者是高空间分辨率但光谱信息较少的图像(高分辨率的多光谱图像,HR-MSI)。为了获得高分辨率的HSI(HR-HSI),研究者们提出了将LR-HSI和HR-MSI融合的方法,称为MSI-HSI融合。MSI-HSI融合在遥感图像处理中引起了广泛关注。 论文来源 这篇论文《Advancing ...

基于图神经网络的图优化问题求解框架

基于图神经网络的图优化问题求解框架

基于图神经网络的图优化问题求解框架 背景及研究动机 在解决约束满足问题(CSPs)和组合优化问题(COPs)时,回溯法与分支启发式结合是一种常见的方法。尽管为特定问题设计的分支启发式理论上是高效的,但其复杂性和实施难度使实践应用受限。反之,通用的分支启发式尽管适用范围广,但通常表现出次优性能。本文作者提出了一个新的求解框架,通过在分支启发式中引入香农熵(Shannon Entropy),在通用性和特定性之间找到平衡。具体地,利用图神经网络(GNN)模型从概率方法中训练得出的损失函数学习这些概率分布,并将其应用于两个NP-hard问题:最小支配团问题(Minimum Dominating Clique Problem)和边团覆盖问题(Edge Clique Cover Problem)。 作者...

通过替代双教师自调教学实现弱监督语义图像分割

通过替代双教师自调教学实现弱监督语义图像分割

通过替代双教师自调教学实现弱监督语义图像分割 背景介绍 随着计算机视觉领域的不断发展,语义分割成为了其中一个重要而活跃的研究方向。传统的语义分割方法依赖手工标记的像素级标签,然而获取这些精确标注通常需要大量的人力和时间成本。为了解决这一问题,近年来提出了弱监督语义分割(Weakly Supervised Semantic Segmentation,WSSS),其目标是在最小化人工标注的前提下,利用弱标注信息(如图像标签、边框、涂鸦等)实现高效的语义分割。 本文研究的是基于图像级标签的弱监督语义分割方法,这是所有 WSSS 类别中最具挑战性的任务。当前方法主要依赖于图像分类模型生成伪分割掩膜(Pseudo Segmentation Masks,PSMs),但这些模型特征主要用于分类任务,导致伪...

考虑环境不确定性的稳健多目标强化学习

背景介绍 近年来,强化学习(Reinforcement Learning, RL)在解决各种复杂任务方面展示了其有效性。然而,许多现实世界中的决策和控制问题涉及多个相互冲突的目标。这些目标的相对重要性(偏好)在不同情景下需要权衡。尽管帕累托最优解(Pareto optimal)的解决方案被认为是理想的,但环境不确定性(例如,环境变化或观察噪声)可能会导致代理采取次优策略。 针对上述问题,Xiangkun He、Jianye Hao等人发表了一篇题为《Robust Multiobjective Reinforcement Learning Considering Environmental Uncertainties》的论文,旨在研究一种新的多目标优化范式,提出了在考虑环境不确定性的情况下的健...

GMConv:实现对神经网络卷积核有效感受野的调节

GMConv:实现对神经网络卷积核有效感受野的调节 前言 卷积神经网络(Convolutional Neural Networks,简称CNNs)通过卷积核的使用在计算机视觉任务上取得了显著的成功,包括图像分类、目标检测等。然而,近年来视觉转换器(Vision Transformers,简称ViTs)的出现逐渐受到关注,因为它们在视觉识别任务中表现优异,有时甚至超越了CNNs。尽管如此,改善CNNs的努力从未止步,许多研究工作致力于设计新的CNN架构,特别是大核卷积CNNs在准确性等方面展现了与最先进的ViTs相媲美的表现。 本文研究的重点在于CNN中的有效感受野(Effective Receptive Fields,简称ERFs),ERF表示特定输入像素对输出像素的贡献。研究发现ERFs通...