动态注意视觉-语言Transformer网络在人员重新识别中的应用

动态注意力视觉语言Transformer网络用于行人再识别的研究报告 近年来,基于多模态的行人再识别(Person Re-Identification, ReID)技术在计算机视觉领域受到越来越多的关注。行人再识别旨在通过跨摄像机视角识别特定行人,是安全与监控应用(如寻找失踪人员、追踪犯罪分子)的关键技术。然而,多模态ReID技术融合视觉和文本信息时面临重大挑战,包括特征融合的偏差以及领域差异对模型性能的影响。 本文由Guifang Zhang、Shijun Tan、Zhe Ji和Yuming Fang等人撰写,来自江西财经大学计算与人工智能学院及纽卡斯尔大学纽卡斯尔商学院,发表于2024年《International Journal of Computer Vision》。研究提出了一种动...

重新思考用于生物识别数据错误校正的当代深度学习技术

重新思考深度学习技术在生物特征数据纠错中的应用 背景介绍 随着信息技术的发展,生物特征数据在身份验证和安全存储中的应用愈发广泛。传统密码学通常依赖均匀分布且可精确重现的随机字符串,然而,现实中大多数数据(如指纹、虹膜扫描等生物特征)并不具备这样的属性,导致在实际应用中存在生成、存储和检索的诸多挑战。近年来,基于生物特征数据的密码学系统(biometric cryptosystems)被广泛研究,旨在利用独特的生物特征(例如指纹、虹膜等)作为生成加密密钥的来源。然而,由于生物特征数据的固有可变性以及传感器噪声等外部因素,精确恢复加密密钥变得复杂,进而对纠错机制提出了更高的要求。 在这种背景下,近年来深度学习方法凭借其在语音识别、图像处理等领域的卓越表现,被尝试应用于提升生物特征数据的纠错能力。...

NAF和SynthStab:基于RAFT的网络和合成数据集的数字视频稳定方法

基于深度学习的视频稳定方法改进与合成数据集SynthStab的研究 背景介绍 数字视频稳定技术通过软件去除不必要的振动和相机运动痕迹,是现代视频处理中的关键技术,尤其在业余视频拍摄中应用广泛。然而,现有基于深度学习的直接变形(Direct Warping Stabilization,简称DWS)方法虽然在低质量视频中表现良好,但在应对剧烈不稳定性时效果有限,且难以达到传统方法的稳定水平。这主要源于以下原因:现有数据集的稳定视频定义不够明确、模型结构简单、对未来帧的预测信息利用不足等。 为此,本文提出一种新型的基于RAFT(Recurrent All-Pairs Field Transforms)的半在线直接变形方法——NAFT,以及一个新的合成数据集SynthStab,用以解决上述问题。这些...

多视角变换网络(MVTN):3D理解的最新方法

多视角变换网络(MVTN):3D理解的最新方法

多视角变换网络(MVTN)推动3D理解研究的新进展 背景与研究动机 在计算机视觉领域,三维(3D)数据的深度学习研究近年来取得了显著进展,尤其是在分类、分割和检索任务中。然而,如何有效利用三维形状信息仍然是一个重要的挑战。常用的三维数据表示方法包括点云(Point Clouds)、网格(Meshes)和体素(Voxels)。此外,另一种流行的策略是通过多视角投影技术,将3D对象或场景渲染成多个二维(2D)视图。这种方法与人类视觉系统接收的图像流更为相似,并且可以充分利用2D深度学习的先进成果。 多视角方法如MVCNN(Su et al., 2015)通过渲染固定视点的2D图像,显著提升了3D形状分类的性能。然而,这些方法普遍依赖固定的视角配置(如随机采样或预定义视点),难以根据具体任务动态调...

基于Transformer的对象再识别综述

Transformer for Object Re-Identification: A Survey 背景与研究意义 对象重新识别(Object Re-Identification,简称Re-ID)是一项重要的计算机视觉任务,旨在跨时间和场景识别特定对象。这一领域在深度学习技术的推动下取得了显著进展,尤其是基于卷积神经网络(Convolutional Neural Networks,简称CNNs)的研究。然而,随着视觉Transformer的出现,Re-ID研究开启了新的篇章。本文综述了基于Transformer的Re-ID技术,分析其在图像/视频、少数据/少标注、多模态及特殊应用场景中的优势与挑战。 研究团队与发表信息 本文由来自武汉大学、Sun Yat-Sen University和In...

整合多组学数据揭示凋亡小体清除作用在肺腺癌预后和免疫治疗中的意义

肺腺癌中凋亡小体清除特性及其预后与免疫治疗的关联研究 背景与研究动机 肺癌是全球癌症相关死亡的主要原因,其中肺腺癌(Lung Adenocarcinoma,LUAD)是最常见的组织学亚型。由于疾病的隐匿性和缺乏特异性,大多数肺癌患者确诊时已处于晚期,传统治疗方式(如手术、放疗和化疗)的疗效有限,患者总体生存率较低。近年来,免疫治疗尤其是免疫检查点抑制剂(Immune Checkpoint Inhibitors,ICIs)为非小细胞肺癌(NSCLC)患者带来了希望,但其疗效仍受限于肿瘤微环境(Tumor Microenvironment,TME)的免疫抑制作用。 凋亡小体清除(Efferocytosis,ER)是由吞噬细胞清除凋亡细胞的生物过程,在肿瘤进展中起关键作用。研究表明,ER促进肿瘤免...

利用条件性蛋白扩散模型生成具有增强活性的人工可编程核酸酶序列

利用条件性蛋白扩散模型生成具有增强活性的人工可编程核酸酶序列

深度学习助力蛋白质设计:基于条件扩散模型的功能蛋白序列生成 蛋白质是生命科学研究和应用的核心,其多样性和功能复杂性为科学家提供了无数可能性。随着深度学习技术的发展,蛋白质设计正迈向一个全新高度。由上海交通大学、剑桥大学等多个机构的科学家联合发表的研究《A conditional protein diffusion model generates artificial programmable endonuclease sequences with enhanced activity》展示了一种名为“条件蛋白扩散模型”(Conditional Protein Diffusion Model, 简称 CPDiffusion)的创新方法,用于设计具有增强功能的人工蛋白质序列。这一研究已发表在《Ce...

颈部转移性淋巴结的自动分割方法:基于纵向MRI的自蒸馏掩码图像transformer

颈部转移性淋巴结的自动分割方法:基于纵向MRI的自蒸馏掩码图像transformer

自蒸馏的掩码图像transformer在纵向MRI中的潜力——自动分割颈部淋巴结转移 报告介绍 在肿瘤放疗中,自动分割技术承诺提升速度并降低手工分割带来的读者间差异。在放射肿瘤学临床实践中,精确快速的肿瘤分割对于患者的个性化治疗至关重要。Ramesh Paudyal等来自Memorial Sloan Kettering Cancer Center的研究人员开展了这一项研究,旨在实现并评估“屏蔽图像变压器”(masked image modeling using vision transformers,即SMIT)算法在口咽部鳞状细胞癌患者的纵向T2加权MRI图像中的颈部淋巴结转移的自动分割精度。 这篇论文发表在《BJR|Artificial Intelligence》2024年第1期。这项研...

蛋白质结构预测:挑战、进展与研究范式的转变

蛋白质结构预测:挑战、进展及研究范式的变化 蛋白质结构预测是一个吸引了生物化学、医学、物理学、数学和计算机科学等多个领域研究者的重要跨学科研究课题。研究者们采取了多种研究范式去解决同一个结构预测问题:生物化学家和物理学家试图揭示蛋白质折叠的原理;数学家,尤其是统计学家,通常从假设给定目标序列的蛋白质结构概率分布开始,然后找到最可能的结构;而计算机科学家将蛋白质结构预测视为一个优化问题——寻找具有最低能量的结构构象或最小化预测结构与天然结构之间的差异。最近,深度学习在蛋白质结构预测中也取得了巨大成功。在这篇综述中,本文呈现了一项对蛋白质结构预测努力的调查。我们比较了不同领域研究者采用的研究范式,重点是深度学习时代研究范式的转变。 作者简介及论文出处 本文由Bin Huang, Lupeng K...

利用深度学习增强视觉步态分析中的跌倒风险评估

引言 跌倒事件在多个临床人群中普遍存在,通常的风险评估包括对个体步态进行视觉观察。然而,对步态的观察评估通常局限在实验室内对个体进行规范的步行协议测试,以识别可能增加跌倒风险的缺陷,但微妙的缺陷可能不易被观察到。为此,客观方法(例如惯性测量单元,IMUs)对于定量分析高分辨率的步态特征是有用的,这有助于通过捕捉细微差别来提高跌倒风险评估的信息量。然而,仅依赖IMU的步态仪器化分析存在局限性,它没有考虑到参与者的行为以及环境中的细节(例如障碍物)。视频眼动仪可能提供了评估跌倒风险的额外见解,通过记录头部和眼睛的运动,可以了解人们基于头部和眼睛的动作来遍历环境的方式。但是,手动评估视频数据以评估头部和眼睛的动作既耗时又具有主观性。因此,迫切需要自动化的方法,但目前尚不存在。本文提出了一种基于深度...