计算机科学-学科-FmRead学术前沿

双空间视频行人再识别研究背景介绍行人再识别（Person Re-Identification, ReID）技术旨在通过不同摄像头拍摄的图像或视频序列，识别出特定个体。近年来，随着深度学习技术的快速发展，ReID 技术在城市安防、失踪人员搜索和嫌疑人追踪等领域展现了巨大的应用潜力。然而，现有的 ReID 方法主要依赖于欧几里得空间进行特征表示学习，这在处理复杂场景时面临诸多挑战，例如遮挡、背景杂乱以及复杂的时空信息建模问题。为了解决这些问题，重庆邮电大学的研究团队提出了一种名为“双空间视频行人再识别”（Dual-Space Video Person Re-Identification, DS-VReID）的新框架。该框架首次将双曲空间引入视频行人再识别任务中，结合欧几里得空间和双曲空间的...

TryOn-Adapter——高效细粒度服装身份适配的高保真虚拟试穿研究背景与问题虚拟试穿（Virtual Try-On）技术近年来受到广泛关注，其核心目标是将给定的服装无缝调整到特定人物身上，同时避免服装图案和纹理的失真。然而，现有的基于扩散模型（Diffusion Model）的方法在保持服装身份一致性方面存在显著局限性，即使通过全参数微调也难以完全控制服装的身份特征。此外，这些方法通常需要高昂的训练成本，限制了其广泛应用。为了解决这些问题，本研究提出了一种新颖的框架——TryOn-Adapter，旨在实现高效的服装身份适配，同时降低训练资源消耗。具体而言，研究者将服装身份解耦为三个细粒度因素：风格（Style）、纹理（Texture）和结构（Structure），并通过定制的轻量...

对比解耦表示学习在语音保留面部表情操控中的应用背景介绍近年来，随着虚拟现实、影视制作以及人机交互技术的快速发展，面部表情操控（Facial Expression Manipulation）成为计算机视觉和图形学领域的研究热点之一。其中，语音保留面部表情操控（Speech-Preserving Facial Expression Manipulation, SPFEM）的目标是在保持说话者嘴部动作与语音同步的同时，改变其面部情绪表达。这一技术不仅能够增强人类表情的表现力，还为虚拟角色生成、电影后期制作等实际应用场景提供了重要支持。然而，SPFEM 的实现面临诸多挑战。首先，语音内容和情绪信息在自然对话中高度交织，导致难以从参考视频或源视频中有效分离这两种信息。其次，现有的方法往往依赖于...

DiffuVolume——基于扩散模型的立体匹配新方法研究背景与问题提出立体匹配（Stereo Matching）是计算机视觉领域的重要任务之一，广泛应用于自动驾驶、机器人导航等领域。其核心目标是从一对校正后的立体图像中生成密集的视差图（Disparity Map）。近年来，基于代价体积（Cost Volume）的方法在立体匹配中取得了显著成功。代价体积通过聚合左右图像特征中的几何信息，为视差预测提供了丰富的上下文信息。然而，代价体积中存在大量冗余信息，这些冗余信息不仅干扰了模型训练，还限制了性能的进一步提升。针对这一问题，研究者们尝试从多个角度优化代价体积的设计，例如改进特征提取网络、设计更高效的代价聚合模块等。然而，这些方法往往忽略了对代价体积中冗余信息的过滤。虽然有少数研究引入注...

提升自监督面部表征学习的姿势感知能力研究背景与问题提出在计算机视觉领域，面部表征学习（Facial Representation Learning）是一项重要的研究任务。通过分析面部图像，我们可以提取身份、情绪和姿态等信息，从而为面部表情识别（Facial Expression Recognition, FER）、人脸识别（Face Recognition, FR）、头部姿态估计（Head Pose Estimation, HPE）等下游任务提供支持。近年来，深度卷积神经网络（Deep Convolutional Neural Networks, DCNNs）在面部理解任务中取得了显著成果，但这些方法通常依赖于大规模标注数据集进行监督学习，而标注数据需要大量人工成本，且可能无法很好地泛化...

一种用于指代表达分割与生成的互监督框架研究背景与问题提出近年来，视觉-语言交互技术在人工智能领域取得了显著进展。其中，指代表达分割（Referring Expression Segmentation, RES）和指代表达生成（Referring Expression Generation, REG）作为两个核心任务，分别旨在根据自然语言描述定位图像中的目标对象并生成其分割掩码，以及为特定目标生成清晰准确的语言描述。尽管这两个任务本质上是互逆的，但它们的研究通常被分开进行，缺乏系统性地探讨两者如何相互促进的方法。现有研究面临的主要问题包括：1）RES任务依赖大量标注数据，而这些数据的获取成本高昂；2）REG生成的表达可能存在歧义，难以准确定位目标对象；3）联合训练RES和REG的任务虽然...

GL-MCM: 全局与局部最大概念匹配用于零样本分布外检测研究背景与问题提出在现实世界中，机器学习模型的应用环境往往面临数据分布的变化，例如新类别的出现。这种现象被称为“分布外检测”（Out-of-Distribution Detection, OOD）。为了确保模型在未知数据上的可靠性，OOD 检测成为一项关键任务。然而，传统的单模态监督学习方法虽然在特定任务上表现良好，但其训练成本高昂，且难以适应多样化的应用场景。近年来，基于 CLIP（Contrastive Language–Image Pre-training）的零样本分布外检测方法引起了广泛关注。CLIP 是一种多模态预训练模型，能够通过自然语言监督学习视觉特征。尽管现有方法如 MCM（Maximum Concept Mat...

基于LiDAR引导的几何预训练方法提升视觉中心3D目标检测性能背景介绍近年来，多摄像头3D目标检测在自动驾驶领域受到了广泛关注。然而，基于视觉的方法在从RGB图像中精确提取几何信息方面仍面临挑战。现有的方法通常利用深度相关任务对图像骨干网络进行预训练以获取空间信息，但这些方法忽略了视角转换的关键问题，导致空间知识在图像骨干和视角转换模块之间存在错位，从而影响了性能。为了解决这一问题，本文提出了一种新颖的几何感知预训练框架——GAPretrain。论文来源该论文由Linyan Huang, Huijie Wang, Jia Zeng等作者撰写，他们分别来自厦门大学人工智能系、上海AI实验室OpenDriveLab以及上海交通大学。论文发表于《International Journal ...

一种通过掩码图像建模预训练探索强轻量级视觉Transformer的实验研究学术背景近年来，自监督学习（self-supervised learning, SSL）在计算机视觉领域取得了显著进展。特别是掩码图像建模（masked image modeling, MIM）预训练方法在大规模视觉Transformer（vision transformers, ViTs）上的成功应用，使得基于这些模型的下游任务性能得到了极大提升。然而，现有的研究主要集中在大型ViTs上，对于轻量级ViTs的预训练方法及其效果的研究相对较少。此外，尽管许多研究致力于设计复杂的轻量级ViTs架构以提高性能，但很少有工作关注如何优化预训练策略来进一步提升现有轻量级模型的表现。本文旨在探讨MIM预训练能否同样有效应用于...

高精度预测蛋白片段抑制活性的新方法：FragFold的应用学术背景蛋白质相互作用在细胞生命活动中扮演着至关重要的角色，而小肽（peptides）或蛋白片段（protein fragments）可以通过与特定蛋白界面结合，调节蛋白功能，甚至作为抑制剂发挥作用。近年来，高通量实验技术的发展使得在活细胞中大规模测量蛋白片段的抑制活性成为可能。然而，迄今为止，尚未有相应的计算方法能够预测哪些蛋白片段能够与目标蛋白结合并发挥抑制作用，更不用说预测它们的结合模式。这一领域的研究空白促使研究人员开发新的计算工具来解决这一问题。 AlphaFold的推出为蛋白质结构预测带来了革命性的突破，但其在预测蛋白片段与全蛋白结合方面的应用仍然有限。为了填补这一空白，Andrew Savinov等研究人员开发了一种...

双空间视频行人重识别

TryOn-Adapter：高效细粒度服装身份适应的高保真虚拟试穿

对比式解耦表示学习与正则化用于语音保留的面部表情操纵

基于扩散模型的立体匹配方法DiffuVolume

基于姿态感知对比学习的样本一致性面部表示学习

基于相互监督框架的指代表达分割与生成

GL-MCM:全局和局部最大概念匹配的零样本分布外检测

基于Lidar引导的视觉中心3D物体检测的几何预训练

通过掩码图像建模预训练探索轻量级视觉Transformer的实验研究

利用AlphaFold高通量发现抑制性蛋白质片段的研究