更小但更好:用更小的大型语言模型统一布局生成

统一布局生成研究新突破:更小但更强的大语言模型 研究背景与问题提出 布局生成(Layout Generation)是计算机视觉和人机交互领域的重要研究方向,旨在通过算法自动生成符合特定需求的图形界面或排版设计。例如,科学文章、应用程序界面(App UI)、杂志页面以及幻灯片的设计都需要高效且灵活的布局生成方法。然而,传统方法通常针对单一任务或单一领域进行优化,缺乏跨任务和跨领域的通用性。随着深度学习技术的发展,基于Transformer架构的方法逐渐成为主流,但仍面临模型复杂度高、计算成本大等问题。 近年来,大语言模型(Large Language Models, LLMs)在自然语言处理(NLP)领域取得了显著进展,其强大的推理能力为解决复杂任务提供了新的可能性。然而,将LLMs应用于统一...

从空间特征重要性角度提升分布外检测

从空间特征重要性视角提升分布外检测性能的研究 研究背景与问题提出 在深度学习模型的实际应用中,确保模型在面对未知类别的输入时能够可靠地拒绝预测,是保障系统安全性和鲁棒性的关键。这一需求催生了分布外检测(Out-of-Distribution Detection, OOD Detection)的研究领域。OOD检测旨在区分模型训练数据分布范围内的样本(即分布内样本,In-Distribution, ID)和超出该范围的样本(即分布外样本,Out-of-Distribution)。近年来,研究者提出了多种检测准则,如MSP(Maximum Softmax Probability)、Energy Score、GradNorm等,以构建模型的拒绝区域,并将落入该区域的样本识别为分布外样本。 然而,现...

Moonshot:通过运动感知多模态条件实现可控视频生成和编辑

MoonShot——迈向基于运动感知多模态条件的可控视频生成与编辑 研究背景与问题提出 近年来,文本到视频扩散模型(Video Diffusion Models, VDMs)取得了显著进展,使得生成高质量、视觉吸引人的视频成为可能。然而,现有VDM大多依赖于文本条件进行生成控制,这在精确描述视觉内容方面存在局限性。具体而言,这些方法通常难以对生成视频的外观和几何结构进行精细控制,导致生成结果高度依赖随机性或偶然性。 为了解决这一问题,研究者尝试通过微调扩散模型实现个性化生成(如DreamBooth),但这种方法需要针对每个输入图像重复训练,效率低下且难以扩展到更广泛的应用场景。此外,尽管图像域中的IP-Adapter通过双交叉注意力层实现了图像与文本的联合条件控制,但直接将其应用于视频生成会...

深度伪造检测:双级适配器用于深度伪造检测

Deepfake-Adapter——一种双层适配器用于深度伪造检测 研究背景与问题 随着深度生成模型(deep generative models)的快速发展,超逼真的面部图像和视频可以轻松生成,这些内容甚至能够欺骗人类的眼睛。这种技术被滥用时,可能导致政治、娱乐和社会领域的严重虚假信息传播问题,这种威胁被称为“深度伪造”(Deepfake)。为了应对这一安全问题,许多深度伪造检测方法被提出,并在训练和测试数据来自相同操纵类型且质量良好的情况下表现出色。然而,当面对未见过或低质量的伪造样本时,这些方法的性能显著下降。这主要是因为现有的深度伪造检测方法大多仅关注局部纹理、融合边界或频率信息等低层次伪造特征,而忽略了高层次语义信息的作用。 高层次语义信息(high-level semantics...

有限数据下的图像合成:综述与分类法

图像合成在有限数据下的研究综述 研究背景与问题提出 近年来,深度生成模型(Deep Generative Models)在智能创作任务中取得了前所未有的进展,特别是在图像和视频生成、音频合成等领域。然而,这些模型的成功依赖于大量的训练数据和计算资源。当训练数据有限时,生成模型容易出现过拟合(Overfitting)和记忆化(Memorization)问题,导致生成样本的质量和多样性显著下降。这种限制对许多实际应用场景构成了挑战,例如医学影像生成、工业缺陷检测以及艺术品创作等。 为了应对这些问题,研究人员致力于开发能够在有限数据条件下生成高质量、多样化图像的新模型。尽管已有许多研究尝试解决这一问题,但目前尚缺乏系统性的综述来明确以下几点: 1. 有限数据下图像合成的定义、挑战及分类; 2. 对...

基于事件相机的自监督快门复原方法

基于事件相机的自监督快门展开方法 研究背景与问题提出 在计算机视觉领域,从滚动快门(Rolling Shutter, RS)图像中恢复无失真的全局快门(Global Shutter, GS)视频一直是一个极具挑战性的问题。RS 相机由于逐行曝光机制,在动态场景中容易产生空间扭曲(如抖动和倾斜),这在高速运动场景中尤为明显。尽管现有的方法可以通过人工假设或特定数据集的特性来纠正 RS 效应,但这些方法往往在复杂非线性运动的真实场景中表现不佳。此外,许多方法依赖于合成数据集进行训练,导致在真实场景中性能下降,即所谓的“合成到真实”差距。 为了解决这些问题,本文作者提出了一种基于事件相机的自监督学习框架——SelfUnroll,旨在通过利用事件相机的高时间分辨率信息,实现从 RS 图像到连续时间 ...

双空间视频行人重识别

双空间视频行人再识别研究 背景介绍 行人再识别(Person Re-Identification, ReID)技术旨在通过不同摄像头拍摄的图像或视频序列,识别出特定个体。近年来,随着深度学习技术的快速发展,ReID 技术在城市安防、失踪人员搜索和嫌疑人追踪等领域展现了巨大的应用潜力。然而,现有的 ReID 方法主要依赖于欧几里得空间进行特征表示学习,这在处理复杂场景时面临诸多挑战,例如遮挡、背景杂乱以及复杂的时空信息建模问题。 为了解决这些问题,重庆邮电大学的研究团队提出了一种名为“双空间视频行人再识别”(Dual-Space Video Person Re-Identification, DS-VReID)的新框架。该框架首次将双曲空间引入视频行人再识别任务中,结合欧几里得空间和双曲空间的...

TryOn-Adapter:高效细粒度服装身份适应的高保真虚拟试穿

TryOn-Adapter:高效细粒度服装身份适应的高保真虚拟试穿

TryOn-Adapter——高效细粒度服装身份适配的高保真虚拟试穿 研究背景与问题 虚拟试穿(Virtual Try-On)技术近年来受到广泛关注,其核心目标是将给定的服装无缝调整到特定人物身上,同时避免服装图案和纹理的失真。然而,现有的基于扩散模型(Diffusion Model)的方法在保持服装身份一致性方面存在显著局限性,即使通过全参数微调也难以完全控制服装的身份特征。此外,这些方法通常需要高昂的训练成本,限制了其广泛应用。 为了解决这些问题,本研究提出了一种新颖的框架——TryOn-Adapter,旨在实现高效的服装身份适配,同时降低训练资源消耗。具体而言,研究者将服装身份解耦为三个细粒度因素:风格(Style)、纹理(Texture)和结构(Structure),并通过定制的轻量...

对比式解耦表示学习与正则化用于语音保留的面部表情操纵

对比解耦表示学习在语音保留面部表情操控中的应用 背景介绍 近年来,随着虚拟现实、影视制作以及人机交互技术的快速发展,面部表情操控(Facial Expression Manipulation)成为计算机视觉和图形学领域的研究热点之一。其中,语音保留面部表情操控(Speech-Preserving Facial Expression Manipulation, SPFEM) 的目标是在保持说话者嘴部动作与语音同步的同时,改变其面部情绪表达。这一技术不仅能够增强人类表情的表现力,还为虚拟角色生成、电影后期制作等实际应用场景提供了重要支持。 然而,SPFEM 的实现面临诸多挑战。首先,语音内容和情绪信息在自然对话中高度交织,导致难以从参考视频或源视频中有效分离这两种信息。其次,现有的方法往往依赖于...

基于姿态感知对比学习的样本一致性面部表示学习

提升自监督面部表征学习的姿势感知能力 研究背景与问题提出 在计算机视觉领域,面部表征学习(Facial Representation Learning)是一项重要的研究任务。通过分析面部图像,我们可以提取身份、情绪和姿态等信息,从而为面部表情识别(Facial Expression Recognition, FER)、人脸识别(Face Recognition, FR)、头部姿态估计(Head Pose Estimation, HPE)等下游任务提供支持。近年来,深度卷积神经网络(Deep Convolutional Neural Networks, DCNNs)在面部理解任务中取得了显著成果,但这些方法通常依赖于大规模标注数据集进行监督学习,而标注数据需要大量人工成本,且可能无法很好地泛化...