使用FOV IoU实现360° 图像中的对象检测

使用FOV IoU实现360° 图像中的对象检测 360°摄像机近年来在虚拟现实、自动驾驶和安全监控等多个领域中得到了广泛应用。随着360°图像数据的增加,对360°图像识别任务尤其是对象检测的需求也在不断增长。由于传统方法在360°图像处理中的不足,Miao Cao、Satoshi Ikehata和Kiyoharu Aizawa等研究人员提出了两种基础技术:视场IoU(Field-of-View Intersection over Union,简称FOV-IoU)和360度增强(360augmentation),用以改善360°图像中对象检测的效果。 背景和研究动机 现代大多数对象检测神经网络主要设计用于透视图像,但当应用于等距矩形投影(EquiRectangular Projection...

DVMark:基于多尺度深度学习的视频水印框架

DVMark:基于多尺度深度学习的视频水印框架

DVMark:基于多尺度深度学习的视频水印框架 视频水印技术通过在覆盖视频中嵌入信息来实现数据隐藏。本文提出的DVMark模型是一种基于深度学习的多尺度视频水印解决方案,具有较高的鲁棒性和实用性,能够在保证视频质量的前提下,抵抗各种可能的失真和攻击。 背景与动机 视频水印技术涉及在覆盖视频中嵌入消息,可以是可见的也可以是不可见的。不可见水印因其不会干扰原始内容且难以被攻击者检测到而具有优势。水印可以应用于多种场景,如包含视频创建元数据、时间戳以及创作者信息等。此外,水印也广泛用于信息监控和追踪,这是因为水印即便在视频传播过程中遭受一定程度的失真和修改后仍然可以恢复。 目前,评估视频水印系统的主要因素包括不可见性(质量)、鲁棒性和有效载荷(消息比特数量)。传统的水印方法多依赖于手工设计特征,通...

用于语义分割的堆叠反卷积网络

用于语义分割的堆叠反卷积网络

用于语义分割的堆叠反卷积网络 引言 语义分割在计算机视觉领域中是一项关键任务,其目的是对图像中的每一个像素进行分类,预测其类别。然而,现有的全卷积网络(Fully Convolutional Networks, FCNs)在处理空间分辨率方面存在局限性,容易出现物体边界模糊和小物体丢失的问题。为了解决这些问题,本文提出了一种堆叠逆卷积网络(Stacked Deconvolutional Network, SDN)来提升语义分割的效果。 研究背景 在深度卷积神经网络(Deep Convolutional Neural Networks, DCNNs)的推动下,语义分割取得了显著进展。DCNN通过强大的学习能力可以获取高级语义特征,比如图像分类、目标检测和关键点预测等。然而,DCNN在语义分割任...

FP-Age:利用人脸解析注意机制进行野生环境中的面部年龄估计

FP-Age:利用人脸解析注意机制进行野生环境中的面部年龄估计

FP-Age:利用人脸解析注意机制进行野生环境中的面部年龄估计 研究背景 在人脸图像上进行年龄估计是一项重要的计算机视觉任务,它在法医、安全、健康福祉和社交媒体等多种实际应用中具备广泛的应用前景。然而,由于头部姿势、面部表情和遮挡等多样化因素的存在,深度学习模型在人脸年龄估计领域的表现尚有提升空间。特别是在非受控环境下(“in-the-wild”)的人脸图像中,这些问题尤为突出。为了提高模型在不同条件下的鲁棒性和准确性,作者提出了一种新的方法,旨在将面部语义信息引入到年龄估计过程中,使模型能够有效关注最具信息量的面部区域。 研究人员与发表信息 这篇论文的主要作者包括Imperial College London的Yiming Lin、Jie Shen (通讯作者)、Yujiang Wang和...

TGFuse:基于Transformer和生成对抗网络的红外与可见光图像融合方法

TGFuse:基于Transformer和生成对抗网络的红外与可见光图像融合方法

TGFuse:基于Transformer和生成对抗网络的红外与可见光图像融合方法 背景介绍 随着成像设备和分析方法的发展,多模态视觉数据迅速涌现,具有许多实际应用。在这些应用中,图像融合在帮助人眼感知多模态数据的信息关联中起到了重要作用。尤其是红外和可见光图像的融合,在军事、安全和视觉追踪等领域具有重要应用,成为图像融合任务的重要一环。设计一个自然且高效的图像融合算法,能够提升整图级别的感知,从而适应复杂场景的融合需求。然而,现有基于卷积神经网络(CNN)的融合方法直接忽略了远程依赖性,这妨碍了对整幅图像的平衡感知。 传统的多尺度变换基础上的融合算法,通过提取源图像的多尺度表示并进行融合和还原,获得了初步的研究成果。然而,这些方法在复杂场景的融合方面能力有限,且容易引入噪声,操作效率低。随着...

无监督时间一致性学习用于视频对象的一致性删除

无监督时间一致性学习用于视频对象的一致性删除

无监督时间一致性学习用于视频对象的一致性删除 研究背景和动机 在视频编辑和修复领域,视频对象删除(Video Object Removal)是一个重要的任务。它的目标是在整个视频中擦除目标对象,并用合理的内容填补空洞。现有的解决方案主要分为两个子任务:(1) 掩膜跟踪(Mask Tracking)和 (2) 视频填充(Video Completion)。然而,这两者通常被视作独立的问题,并分别处理。这种划分导致系统变得过于复杂,需要多个模型的协同工作,不仅增加了训练和部署的难度,也不利于实际应用。 论文指出掩膜跟踪和视频填充在像素级时间对应方面有着强烈的内在联系,利用这些联系可以简化算法复杂度并有助于实际部署。因此,作者提出了一种新的统一视频对象删除(Unified Video Object...

CLASH:基于互补学习与神经架构搜索的步态识别框架

CLASH:基于互补学习与神经架构搜索的步态识别框架

CLASH:基于互补学习与神经架构搜索的步态识别框架 研究背景 步态识别是一种通过个体的行走模式进行身份识别的生物识别技术。这种技术由于可以在远距离无须个体合作的条件下进行,因此在安全检查、视频检索和身份识别等领域有着广泛的应用。然而,基于人影轮廓的识别方法存在一些问题:二值化的稀疏边界表示缺乏丰富的时空信息,使得轮廓大部分像素对步态模式不敏感。为了提高对步态模式的敏感性,同时保持识别的鲁棒性,本文引入了一种基于神经架构搜索的互补学习(Complementary Learning with Neural Architecture Search, CLASH)框架,旨在解决上述问题。 论文来源 本文由Huanzhang Dou、Pengyi Zhang、Yuhan Zhao、Lu Jin和Xi...

基于标签内容描述的透明化深度图像美学评估

基于标签内容描述的透明化深度图像美学评估

基于标签内容描述的透明化深度图像美学评估 学术背景 随着社交媒体平台如Instagram和Flickr的普及,图像美学评估(Image Aesthetics Assessment, IAA)模型的需求日益增长。这些模型不仅可以帮助社交网络服务提供商优化图片排序或推荐结果,还能帮助普通用户管理相册、选择最佳照片,甚至在拍摄和编辑过程中提供指导。然而,如何构建一个稳健的IAA模型一直是一个挑战,因为图像美学的复杂性包括对象、摄影技术等多个因素。 研究动机 现有的深度学习方法虽然在IAA中表现出色,但其内部机制仍不明确。大多数研究通过隐性学习语义特征来预测图像美学,但这些方法未能直接解释这些特征具体代表了什么。本文的核心目标是创建一个更透明的IAA框架,引入可解释的语义特征,以人类可读的标签描述图...

平衡特征对齐与统一性用于小样本分类

平衡特征对齐与统一性用于小样本分类

平衡特征对齐与统一性来解决小样本分类问题 背景与动机 少样本学习(Few-Shot Learning, FSL)的目标是在只有少量新类别(novel classes)样本的条件下,正确地对新样本进行识别。现有的少样本学习方法主要通过最大化特征表示与其对应标签之间的信息,来学习从基础类别(base classes)中可转移的知识。然而,这种方法可能会出现“监督崩溃”(supervision collapse)的问题,因为它对基础类别存在偏差。本文提出了一种解决方案,通过保留数据的内在结构,并学习一种适用于新类别的广义模型。本研究依据信息最大化原则,最大化样本与其特征表示之间以及特征表示与其类别标签之间的互信息(mutual information, MI),以在特征表示中平衡类特异性信息的捕获...

基于负面确定性信息的多重实例学习用于弱监督目标检测与分割

基于负面确定性信息的多重实例学习用于弱监督目标检测与分割

Negative Deterministic Information-Based Multiple Instance Learning for Weakly Supervised Object Detection and Segmentation 背景介绍 在过去的十年中,计算机视觉领域取得了显著进展,特别是在对象检测(Object Detection)和语义分割(Semantic Segmentation)方面。然而,大多数设计的算法和模型都严重依赖于精确的标注数据,这在实际应用中耗费大量人力和时间。弱监督学习(Weakly Supervised Learning,WSL)因其仅需粗粒度的标注数据(如图像级标注)解决了这一问题。在此背景下,弱监督对象检测(Weakly Supervised...