自适应中间模态对齐学习用于可见光-红外人体重识别

自适应中间模态对齐学习用于可见光-红外人体重识别

基于可见光和红外跨模态学习的Adaptive Middle-Modality Alignment Learning方法研究 研究背景与问题 在智能监控系统的需求推动下,可见光-红外行人再识别(Visible-Infrared Person Re-identification, VIReID)正逐渐成为一个备受关注的研究领域。该任务旨在通过对不同光谱模态(如可见光与红外)的行人图像进行匹配,实现全天候行人识别。由于可见光和红外图像源自不同的光谱,存在显著的模态差异,包括光照、纹理、颜色等,这使得跨模态匹配成为一大挑战。 传统方法多通过设计复杂的生成对抗网络(Generative Adversarial Networks, GANs)或深度网络模型来缩小模态差异,但这些方法通常存在如下问题: -...

通过局部仿射共识的图聚类进行特征匹配

基于图聚类的特征匹配研究:局部仿射一致性的实现与应用 学术背景与研究动机 特征匹配是计算机视觉中的基础问题,在三维重建、图像检索、图像配准、SLAM(Simultaneous Localization and Mapping)等众多任务中扮演着重要角色。然而,在实际应用中,特征匹配经常受到噪声、外点(outliers)和多样图像变换的影响,使得构建准确的特征对应变得极为困难。当前基于图模型的特征匹配方法因其强大的结构表述能力在一定程度上缓解了这一问题,但仍然面临以下主要挑战: 1. 图匹配问题通常是NP难(NP-hard)问题,求解复杂度高。 2. 如何构建具有几何意义的图以描述特征点之间的关系仍然存在困难。 为了解决上述问题,本文提出了一种名为 GC-LAC(Graph Clusterin...

面向程序感知的弱监督协作程序对齐框架研究

基于弱监督的协作式程序对齐框架:在指令视频相关性学习中的应用与评估 近年来,随着视频分析领域的快速发展,指令视频因其目标驱动的特性和与人类学习过程的内在关联,吸引了研究者越来越多的关注。相比于普通视频,指令视频包含多个细粒度的步骤,这些步骤具有不同的持续时间和时间位置,形成了更加复杂的程序结构。本研究提出了一种名为协作式程序对齐(Collaborative Procedure Alignment, CPA)的弱监督框架,用于在指令视频中进行程序感知的相关性学习。这一框架的核心特点在于无需依赖昂贵的步骤级标注,通过协作提取步骤信息并量化视频间的程序相关性,显著提升了指令视频相关性学习的效率和效果。 研究背景与问题提出 指令视频相关性学习(Video Correlation Learning, ...

在野外使用SAM学习检测新物种

研究论文报告:基于 SAM 的开放世界物体检测框架 背景介绍 随着生态系统监测的重要性不断提升,野生动植物及植物群体的监测已成为生态保护和农业发展的关键手段。这些监测工作包括估算种群数量、识别物种、研究物种行为以及分析植物病害或多样性。然而,传统的封闭世界物体检测模型通常训练于已标注的单一物种数据,难以泛化到新的物种分类。 当前的生态系统研究在数据和方法上存在诸多挑战,特别是标注数据的不足以及模型对新物种的适应能力有限。基于此,来自美国伊利诺伊大学香槟分校的 Garvita Allabadi、Ana Lucic、Yu-Xiong Wang 和 Vikram Adve 提出了一种面向开放世界的物体检测框架,利用视觉基础模型 Segment Anything Model(SAM),在无需标注新物...

MassiveFold:通过优化和并行化的大规模采样揭示AlphaFold的潜在能力

解读《MassiveFold:通过优化和平行化大规模采样揭示AlphaFold潜在能力》 背景和研究问题 蛋白质结构预测是生命科学中重要的研究领域,对于揭示分子生物学的基本机制具有重要意义。近年来,DeepMind开发的AlphaFold在这一领域取得了革命性进展,其模型在预测单一蛋白质链的结构方面表现卓越,广泛应用于蛋白质组学研究。然而,随着研究需求的增加,AlphaFold在处理复杂蛋白质组装和抗原-抗体等特定相互作用时存在诸多局限,例如计算时间长、对GPU资源需求高等问题。此外,虽然通过增加预测中的循环次数和采样密度可以提升预测质量,但这些方法进一步加重了计算负担。 为应对上述挑战,本文的研究者提出了一个名为MassiveFold的新框架。MassiveFold通过优化算法和大规模采样...

从目标到源:域自适应语义分割的新视角

关于领域自适应语义分割的新视角:T2S-DA研究 背景与研究意义 语义分割在计算机视觉领域中具有重要的应用,但其性能往往依赖于大量标注数据。然而,标注数据的获取成本极高,特别是在复杂场景中,为此,许多研究转向利用合成数据来缓解标注需求的问题。然而,由于领域间的差异性(domain gap),基于合成数据训练的模型难以泛化到真实场景中。这种情况下,无监督领域适应(Unsupervised Domain Adaptation, UDA)方法成为解决此问题的有效手段,其目标是从标注的源域(source domain)迁移知识到未标注的目标域(target domain)。 传统的UDA方法主要分为两类:对抗训练和自训练。对抗训练通过分布对齐来缩小领域间的差异,而自训练则利用目标域的伪标签进行直接监...

基于三维生成对抗网络的一次性生成域适应

One-shot Generative Domain Adaptation in 3D GANs 近年来,生成式对抗网络(Generative Adversarial Networks, GANs)在图像生成领域取得了显著进展。传统的二维生成模型已经能够在多种任务中展现出极高的能力。然而,将这一技术扩展到三维领域(3D-aware image generation),以同时生成二维图像并学习三维结构,仍然面临诸多挑战。本文报道了发表在 International Journal of Computer Vision 上的一篇题为《One-shot Generative Domain Adaptation in 3D GANs》的文章。该研究由 Ziqiang Li、Yi Wu、Chaoyue...

卷积神经网络中归因图可靠性的扰动评估方法

深度学习解释性研究:基于扰动的归因图评估方法 背景和研究动机 随着深度学习模型在各种任务中取得显著成功,人们越来越关注这些模型的解释性和透明性。然而,尽管模型在准确性上表现卓越,其决策过程的可解释性仍然存在很大不足。这种不足限制了模型在实际应用中的推广,因为许多场景需要模型不仅能提供准确的预测,还需具备鲁棒性、不确定性估计以及对决策过程的直观解释能力。 在计算机视觉领域,归因方法(Attribution Methods)被广泛应用于神经网络的解释性研究。这些方法通过生成归因图(Attribution Maps,AMs),显示输入图像中哪些区域对模型的决策贡献最大。然而,由于归因图的定性特性,如何定量评估这些图的有效性仍是一个未解决的问题。本研究旨在解决归因图评估中面临的可靠性和一致性问题,为...

NAF和SynthStab:基于RAFT的网络和合成数据集的数字视频稳定方法

基于深度学习的视频稳定方法改进与合成数据集SynthStab的研究 背景介绍 数字视频稳定技术通过软件去除不必要的振动和相机运动痕迹,是现代视频处理中的关键技术,尤其在业余视频拍摄中应用广泛。然而,现有基于深度学习的直接变形(Direct Warping Stabilization,简称DWS)方法虽然在低质量视频中表现良好,但在应对剧烈不稳定性时效果有限,且难以达到传统方法的稳定水平。这主要源于以下原因:现有数据集的稳定视频定义不够明确、模型结构简单、对未来帧的预测信息利用不足等。 为此,本文提出一种新型的基于RAFT(Recurrent All-Pairs Field Transforms)的半在线直接变形方法——NAFT,以及一个新的合成数据集SynthStab,用以解决上述问题。这些...

多视角变换网络(MVTN):3D理解的最新方法

多视角变换网络(MVTN):3D理解的最新方法

多视角变换网络(MVTN)推动3D理解研究的新进展 背景与研究动机 在计算机视觉领域,三维(3D)数据的深度学习研究近年来取得了显著进展,尤其是在分类、分割和检索任务中。然而,如何有效利用三维形状信息仍然是一个重要的挑战。常用的三维数据表示方法包括点云(Point Clouds)、网格(Meshes)和体素(Voxels)。此外,另一种流行的策略是通过多视角投影技术,将3D对象或场景渲染成多个二维(2D)视图。这种方法与人类视觉系统接收的图像流更为相似,并且可以充分利用2D深度学习的先进成果。 多视角方法如MVCNN(Su et al., 2015)通过渲染固定视点的2D图像,显著提升了3D形状分类的性能。然而,这些方法普遍依赖固定的视角配置(如随机采样或预定义视点),难以根据具体任务动态调...