改进的3D指纹特征识别方法:基于可泛化的神经渲染

基于FingerNeRF的3D手指生物识别研究综述 背景与研究意义 随着生物识别技术的发展,三维(3D)生物识别因其更高的准确性、更强的抗伪装能力以及对拍摄角度变化的鲁棒性,逐渐成为主流研究方向之一。其中,3D手指生物识别技术因其生物特征(如指纹、指静脉、指关节等)易于获取且广泛使用,在学术界和工业界备受关注。然而,现有的3D生物识别方法普遍依赖显式的3D重建技术,这些方法在实际应用中面临两大挑战: 信息丢失:显式重建过程中不可避免地会丢失部分细节信息,直接影响后续识别任务的性能。 硬件与算法的紧耦合性:重建算法往往与特定硬件设备绑定,缺乏通用性,难以适应不同模态的数据或设备。 为解决上述问题,研究者提出了一种基于隐式神经辐射场(Neural Radiance Fields, NeRF)的F...

基于课程学习的记忆辅助知识转移框架用于弱监督在线活动检测

研究背景与研究意义 近年来,视频理解领域中弱监督在线活动检测(Weakly Supervised Online Activity Detection, WS-OAD)作为高水平视频理解的一个重要课题,得到了广泛关注。其主要目标是通过仅使用廉价的视频级标注,在流媒体视频中逐帧检测正在进行的活动。这一任务在许多实际应用场景中具有重要价值,包括自动驾驶、公共安全监控、机器人导航及增强现实等。 尽管全监督方法(Fully Supervised Methods)已在在线活动检测(OAD)中取得了显著进展,但它们严重依赖于密集的帧级注释(Frame-level Annotations),这不仅成本高昂且易受噪声影响,从而限制了模型的扩展性。弱监督设置旨在解决这一问题,但因其在线约束(Online Con...

动态注意视觉-语言Transformer网络在人员重新识别中的应用

动态注意力视觉语言Transformer网络用于行人再识别的研究报告 近年来,基于多模态的行人再识别(Person Re-Identification, ReID)技术在计算机视觉领域受到越来越多的关注。行人再识别旨在通过跨摄像机视角识别特定行人,是安全与监控应用(如寻找失踪人员、追踪犯罪分子)的关键技术。然而,多模态ReID技术融合视觉和文本信息时面临重大挑战,包括特征融合的偏差以及领域差异对模型性能的影响。 本文由Guifang Zhang、Shijun Tan、Zhe Ji和Yuming Fang等人撰写,来自江西财经大学计算与人工智能学院及纽卡斯尔大学纽卡斯尔商学院,发表于2024年《International Journal of Computer Vision》。研究提出了一种动...

日夜兼容的伪监督活动识别方法

研究亮点:基于伪监督和适应性音视频融合的低光照活动识别 学术背景 本文主要探讨在低光照环境中识别活动的挑战。现有的活动识别技术在光照充足的条件下表现优异,但面对低光照视频时却常常失效。这种局限性主要源于两个原因:一是缺乏带标注的低光照训练数据,二是低光照环境下视频的颜色对比度降低,导致视觉信息损失。此外,传统的基于视频图像增强的解决方案,尽管在一定程度上改善了图像质量,但常因引入颜色失真和视频帧不连续性等问题,对活动识别任务产生负面影响。 低光照活动识别在多个应用领域具有重要意义,包括智能家居、自主驾驶、安全监控以及野生动物观察等。因此,本文作者提出了一种新的方法,通过结合伪监督学习和自适应音视频融合技术,显著改善低光照环境下的活动识别性能。 研究来源 这项研究由University of ...

EfficientDeRain+: 基于RainMix增强的不确定性感知学习滤波的高效去雨

高效图像去雨方法:基于雨混合增强的高效深度去雨网络 背景介绍 降雨会对计算机视觉系统捕获的图像和视频质量产生显著影响,如雨滴和雨线会导致图像清晰度下降,进而影响行人检测、目标跟踪和语义分割等任务。为实现全天候视觉系统,图像去雨成为一个关键需求。然而,现有去雨方法通常基于雨模型的启发式假设,这种方法需要复杂的优化或迭代求解,从而导致计算开销大、实时性差。此外,这些假设往往无法涵盖真实雨景复杂多样的模式,制约了去雨质量。 为解决上述问题,本文提出了一种高效的图像去雨方法 EfficientDeRain+,通过将去雨问题建模为预测滤波问题,并设计了一系列创新技术,包括不确定性感知级联预测滤波、多尺度扩张滤波,以及数据增强方法 RainMix,显著提升了图像去雨的效率和质量。 论文来源 本文由来自新...

自适应中间模态对齐学习用于可见光-红外人体重识别

自适应中间模态对齐学习用于可见光-红外人体重识别

基于可见光和红外跨模态学习的Adaptive Middle-Modality Alignment Learning方法研究 研究背景与问题 在智能监控系统的需求推动下,可见光-红外行人再识别(Visible-Infrared Person Re-identification, VIReID)正逐渐成为一个备受关注的研究领域。该任务旨在通过对不同光谱模态(如可见光与红外)的行人图像进行匹配,实现全天候行人识别。由于可见光和红外图像源自不同的光谱,存在显著的模态差异,包括光照、纹理、颜色等,这使得跨模态匹配成为一大挑战。 传统方法多通过设计复杂的生成对抗网络(Generative Adversarial Networks, GANs)或深度网络模型来缩小模态差异,但这些方法通常存在如下问题: -...

面向程序感知的弱监督协作程序对齐框架研究

基于弱监督的协作式程序对齐框架:在指令视频相关性学习中的应用与评估 近年来,随着视频分析领域的快速发展,指令视频因其目标驱动的特性和与人类学习过程的内在关联,吸引了研究者越来越多的关注。相比于普通视频,指令视频包含多个细粒度的步骤,这些步骤具有不同的持续时间和时间位置,形成了更加复杂的程序结构。本研究提出了一种名为协作式程序对齐(Collaborative Procedure Alignment, CPA)的弱监督框架,用于在指令视频中进行程序感知的相关性学习。这一框架的核心特点在于无需依赖昂贵的步骤级标注,通过协作提取步骤信息并量化视频间的程序相关性,显著提升了指令视频相关性学习的效率和效果。 研究背景与问题提出 指令视频相关性学习(Video Correlation Learning, ...

基于三维生成对抗网络的一次性生成域适应

One-shot Generative Domain Adaptation in 3D GANs 近年来,生成式对抗网络(Generative Adversarial Networks, GANs)在图像生成领域取得了显著进展。传统的二维生成模型已经能够在多种任务中展现出极高的能力。然而,将这一技术扩展到三维领域(3D-aware image generation),以同时生成二维图像并学习三维结构,仍然面临诸多挑战。本文报道了发表在 International Journal of Computer Vision 上的一篇题为《One-shot Generative Domain Adaptation in 3D GANs》的文章。该研究由 Ziqiang Li、Yi Wu、Chaoyue...

卷积神经网络中归因图可靠性的扰动评估方法

深度学习解释性研究:基于扰动的归因图评估方法 背景和研究动机 随着深度学习模型在各种任务中取得显著成功,人们越来越关注这些模型的解释性和透明性。然而,尽管模型在准确性上表现卓越,其决策过程的可解释性仍然存在很大不足。这种不足限制了模型在实际应用中的推广,因为许多场景需要模型不仅能提供准确的预测,还需具备鲁棒性、不确定性估计以及对决策过程的直观解释能力。 在计算机视觉领域,归因方法(Attribution Methods)被广泛应用于神经网络的解释性研究。这些方法通过生成归因图(Attribution Maps,AMs),显示输入图像中哪些区域对模型的决策贡献最大。然而,由于归因图的定性特性,如何定量评估这些图的有效性仍是一个未解决的问题。本研究旨在解决归因图评估中面临的可靠性和一致性问题,为...

跨尺度共生局部二值模式用于图像分类

基于跨尺度共现局部二值模式的图像分类方法研究 图像分类技术在计算机视觉领域中占据重要地位,而图像特征提取是该领域的核心研究方向。近年来,局部二值模式(Local Binary Pattern, LBP)由于其高效性和描述能力被广泛应用于纹理分类、人脸识别等视觉任务中。然而,传统的LBP方法在处理几何变换(如旋转、缩放)和图像噪声时表现出明显的局限性。针对这些问题,重庆邮电大学的肖斌等研究团队在《International Journal of Computer Vision》期刊上发表了题为“CS-COLBP: Cross-Scale Co-Occurrence Local Binary Pattern for Image Classification”的研究论文,提出了一种新的图像特征提取...