人工智能-学科-FmRead学术前沿

Deepfake-Adapter——一种双层适配器用于深度伪造检测研究背景与问题随着深度生成模型（deep generative models）的快速发展，超逼真的面部图像和视频可以轻松生成，这些内容甚至能够欺骗人类的眼睛。这种技术被滥用时，可能导致政治、娱乐和社会领域的严重虚假信息传播问题，这种威胁被称为“深度伪造”（Deepfake）。为了应对这一安全问题，许多深度伪造检测方法被提出，并在训练和测试数据来自相同操纵类型且质量良好的情况下表现出色。然而，当面对未见过或低质量的伪造样本时，这些方法的性能显著下降。这主要是因为现有的深度伪造检测方法大多仅关注局部纹理、融合边界或频率信息等低层次伪造特征，而忽略了高层次语义信息的作用。高层次语义信息（high-level semantics...

图像合成在有限数据下的研究综述研究背景与问题提出近年来，深度生成模型（Deep Generative Models）在智能创作任务中取得了前所未有的进展，特别是在图像和视频生成、音频合成等领域。然而，这些模型的成功依赖于大量的训练数据和计算资源。当训练数据有限时，生成模型容易出现过拟合（Overfitting）和记忆化（Memorization）问题，导致生成样本的质量和多样性显著下降。这种限制对许多实际应用场景构成了挑战，例如医学影像生成、工业缺陷检测以及艺术品创作等。为了应对这些问题，研究人员致力于开发能够在有限数据条件下生成高质量、多样化图像的新模型。尽管已有许多研究尝试解决这一问题，但目前尚缺乏系统性的综述来明确以下几点： 1. 有限数据下图像合成的定义、挑战及分类； 2. 对...

基于事件相机的自监督快门展开方法研究背景与问题提出在计算机视觉领域，从滚动快门（Rolling Shutter, RS）图像中恢复无失真的全局快门（Global Shutter, GS）视频一直是一个极具挑战性的问题。RS 相机由于逐行曝光机制，在动态场景中容易产生空间扭曲（如抖动和倾斜），这在高速运动场景中尤为明显。尽管现有的方法可以通过人工假设或特定数据集的特性来纠正 RS 效应，但这些方法往往在复杂非线性运动的真实场景中表现不佳。此外，许多方法依赖于合成数据集进行训练，导致在真实场景中性能下降，即所谓的“合成到真实”差距。为了解决这些问题，本文作者提出了一种基于事件相机的自监督学习框架——SelfUnroll，旨在通过利用事件相机的高时间分辨率信息，实现从 RS 图像到连续时间 ...

双空间视频行人再识别研究背景介绍行人再识别（Person Re-Identification, ReID）技术旨在通过不同摄像头拍摄的图像或视频序列，识别出特定个体。近年来，随着深度学习技术的快速发展，ReID 技术在城市安防、失踪人员搜索和嫌疑人追踪等领域展现了巨大的应用潜力。然而，现有的 ReID 方法主要依赖于欧几里得空间进行特征表示学习，这在处理复杂场景时面临诸多挑战，例如遮挡、背景杂乱以及复杂的时空信息建模问题。为了解决这些问题，重庆邮电大学的研究团队提出了一种名为“双空间视频行人再识别”（Dual-Space Video Person Re-Identification, DS-VReID）的新框架。该框架首次将双曲空间引入视频行人再识别任务中，结合欧几里得空间和双曲空间的...

TryOn-Adapter——高效细粒度服装身份适配的高保真虚拟试穿研究背景与问题虚拟试穿（Virtual Try-On）技术近年来受到广泛关注，其核心目标是将给定的服装无缝调整到特定人物身上，同时避免服装图案和纹理的失真。然而，现有的基于扩散模型（Diffusion Model）的方法在保持服装身份一致性方面存在显著局限性，即使通过全参数微调也难以完全控制服装的身份特征。此外，这些方法通常需要高昂的训练成本，限制了其广泛应用。为了解决这些问题，本研究提出了一种新颖的框架——TryOn-Adapter，旨在实现高效的服装身份适配，同时降低训练资源消耗。具体而言，研究者将服装身份解耦为三个细粒度因素：风格（Style）、纹理（Texture）和结构（Structure），并通过定制的轻量...

对比解耦表示学习在语音保留面部表情操控中的应用背景介绍近年来，随着虚拟现实、影视制作以及人机交互技术的快速发展，面部表情操控（Facial Expression Manipulation）成为计算机视觉和图形学领域的研究热点之一。其中，语音保留面部表情操控（Speech-Preserving Facial Expression Manipulation, SPFEM）的目标是在保持说话者嘴部动作与语音同步的同时，改变其面部情绪表达。这一技术不仅能够增强人类表情的表现力，还为虚拟角色生成、电影后期制作等实际应用场景提供了重要支持。然而，SPFEM 的实现面临诸多挑战。首先，语音内容和情绪信息在自然对话中高度交织，导致难以从参考视频或源视频中有效分离这两种信息。其次，现有的方法往往依赖于...

提升自监督面部表征学习的姿势感知能力研究背景与问题提出在计算机视觉领域，面部表征学习（Facial Representation Learning）是一项重要的研究任务。通过分析面部图像，我们可以提取身份、情绪和姿态等信息，从而为面部表情识别（Facial Expression Recognition, FER）、人脸识别（Face Recognition, FR）、头部姿态估计（Head Pose Estimation, HPE）等下游任务提供支持。近年来，深度卷积神经网络（Deep Convolutional Neural Networks, DCNNs）在面部理解任务中取得了显著成果，但这些方法通常依赖于大规模标注数据集进行监督学习，而标注数据需要大量人工成本，且可能无法很好地泛化...

一种用于指代表达分割与生成的互监督框架研究背景与问题提出近年来，视觉-语言交互技术在人工智能领域取得了显著进展。其中，指代表达分割（Referring Expression Segmentation, RES）和指代表达生成（Referring Expression Generation, REG）作为两个核心任务，分别旨在根据自然语言描述定位图像中的目标对象并生成其分割掩码，以及为特定目标生成清晰准确的语言描述。尽管这两个任务本质上是互逆的，但它们的研究通常被分开进行，缺乏系统性地探讨两者如何相互促进的方法。现有研究面临的主要问题包括：1）RES任务依赖大量标注数据，而这些数据的获取成本高昂；2）REG生成的表达可能存在歧义，难以准确定位目标对象；3）联合训练RES和REG的任务虽然...

GL-MCM: 全局与局部最大概念匹配用于零样本分布外检测研究背景与问题提出在现实世界中，机器学习模型的应用环境往往面临数据分布的变化，例如新类别的出现。这种现象被称为“分布外检测”（Out-of-Distribution Detection, OOD）。为了确保模型在未知数据上的可靠性，OOD 检测成为一项关键任务。然而，传统的单模态监督学习方法虽然在特定任务上表现良好，但其训练成本高昂，且难以适应多样化的应用场景。近年来，基于 CLIP（Contrastive Language–Image Pre-training）的零样本分布外检测方法引起了广泛关注。CLIP 是一种多模态预训练模型，能够通过自然语言监督学习视觉特征。尽管现有方法如 MCM（Maximum Concept Mat...

基于LiDAR引导的几何预训练方法提升视觉中心3D目标检测性能背景介绍近年来，多摄像头3D目标检测在自动驾驶领域受到了广泛关注。然而，基于视觉的方法在从RGB图像中精确提取几何信息方面仍面临挑战。现有的方法通常利用深度相关任务对图像骨干网络进行预训练以获取空间信息，但这些方法忽略了视角转换的关键问题，导致空间知识在图像骨干和视角转换模块之间存在错位，从而影响了性能。为了解决这一问题，本文提出了一种新颖的几何感知预训练框架——GAPretrain。论文来源该论文由Linyan Huang, Huijie Wang, Jia Zeng等作者撰写，他们分别来自厦门大学人工智能系、上海AI实验室OpenDriveLab以及上海交通大学。论文发表于《International Journal ...

深度伪造检测：双级适配器用于深度伪造检测

有限数据下的图像合成：综述与分类法

基于事件相机的自监督快门复原方法

双空间视频行人重识别

TryOn-Adapter：高效细粒度服装身份适应的高保真虚拟试穿

对比式解耦表示学习与正则化用于语音保留的面部表情操纵

基于姿态感知对比学习的样本一致性面部表示学习

基于相互监督框架的指代表达分割与生成

GL-MCM:全局和局部最大概念匹配的零样本分布外检测

基于Lidar引导的视觉中心3D物体检测的几何预训练