PPlaneSDF:基于伪平面正则化符号距离场的神经室内场景重建

基于伪平面正则化符号距离场的神经室内场景重建 学术背景 室内场景的三维重建是计算机视觉领域中的一个重要任务,具有广泛的应用前景,如计算机图形学、虚拟现实等。传统的三维重建方法通常依赖于昂贵的三维地面真值数据,而近年来,基于神经辐射场(NeRF)的隐式神经表示方法在仅使用多张图像的情况下,展示了强大的三维表面重建能力。然而,由于NeRF主要基于颜色的体渲染进行优化,其在低纹理区域(如地板、墙壁等)的重建效果通常较差。这些低纹理区域在室内场景中普遍存在,且通常对应于平面结构。因此,如何在不引入额外监督信号或对房间布局做出额外假设的情况下,提升低纹理区域的重建质量,成为了一个亟待解决的问题。 本文提出了一种基于伪平面正则化符号距离场(PPlaneSDF)的室内场景重建方法。该方法通过将颜色相似的相...

AutoStory:以最少人力生成多样化故事图像

AutoStory:以最少人力生成多样化故事图像

学术背景与问题提出 故事可视化(Story Visualization)是一项旨在从文本描述的故事中生成一系列视觉上一致的图像的任务。这项任务要求生成的图像不仅要高质量,还要与文本描述保持一致,并且在不同图像中角色的身份和场景也要保持一致。尽管故事可视化在艺术创作、儿童教育和文化传承等领域具有广泛的应用前景,但由于其复杂性,现有的方法往往通过简化问题来处理,例如仅考虑特定的角色和场景,或要求用户提供每张图像的控制条件(如草图)。这些简化使得现有方法在实际应用中表现不佳。 为了解决这些问题,本文提出了一种自动化故事可视化系统,能够以最少的人工交互生成多样化、高质量且一致的故事图像。具体来说,作者利用大语言模型(LLM)的理解和规划能力进行布局规划,然后基于布局利用大规模文本到图像模型生成复杂的...

利用通用代理模型进行样本选择来应对标签噪声

学术背景与问题提出 随着深度神经网络(Deep Neural Networks, DNNs)的快速发展,视觉智能系统在图像分类、目标检测、视频理解等任务中取得了显著进展。然而,这些突破依赖于高质量标注数据的收集,而标注过程通常耗时且昂贵。为了应对这一问题,研究人员开始利用大规模的网络数据进行训练,但这些数据往往带有噪声标签(label noise),这会影响深度神经网络的性能。噪声标签的存在会导致训练数据和测试数据分布不一致,从而影响模型在干净测试数据上的泛化能力。 为了解决这一问题,样本选择(sample selection)成为一种有效的方法。其核心思想是通过某种标准从所有训练样本中分离出干净的样本。以往的方法主要依赖于“小损失准则”(small loss criterion),即认为损...

探索同质和异质一致性标签关联的无监督可见光-红外行人重识别

探索同质与异质一致性标签关联的无监督可见光-红外行人重识别 背景介绍 可见光-红外行人重识别(Visible-Infrared Person Re-Identification, VI-ReID)是计算机视觉领域的一个重要研究方向,旨在从不同模态(可见光和红外)的图像中检索出同一行人的图像。这一任务在智能监控系统中具有广泛的应用前景,尤其是在夜间或低光照条件下,红外图像能够提供额外的信息。然而,现有的VI-ReID方法大多依赖于标注数据,而标注数据的获取既耗时又费力。因此,无监督的VI-ReID方法成为了一个重要的研究方向。 现有的无监督VI-ReID方法主要关注如何建立跨模态的伪标签关联,以弥合模态间的差异。然而,这些方法往往忽略了特征空间与伪标签空间之间的同质和异质一致性,导致生成的伪标...

Aniclipart:基于文本到视频先验的剪贴画动画生成

学术背景与问题提出 Clipart(剪贴画)作为一种预制的图形艺术形式,广泛应用于文档、演示文稿和网站中,能够快速提升视觉内容的吸引力。然而,将静态的剪贴画转换为动态序列的传统工作流程非常繁琐且耗时,通常涉及复杂的步骤,如骨骼绑定(rigging)、关键帧动画(keyframing)和中间帧生成(inbetweening)。近年来,文本到视频生成(text-to-video generation)技术的进步为解决这一问题提供了新的可能性。然而,直接应用现有的文本到视频生成模型往往难以保留剪贴画的视觉特征或生成卡通风格的运动,导致动画效果不尽如人意。 本文提出了一种名为AniClipart的系统,旨在通过文本到视频的先验知识,将静态剪贴画转换为高质量的运动序列。该系统通过定义关键点的贝塞尔曲线...

基于级联潜在扩散模型的高质量视频生成框架LaVie

基于级联潜在扩散模型的高质量视频生成框架LaVie

基于级联潜在扩散模型的高质量视频生成:LaVie 学术背景 近年来,随着扩散模型(Diffusion Models, DMs)在图像生成领域的突破性进展,文本到图像(Text-to-Image, T2I)生成技术已经取得了显著的成功。然而,将这一技术扩展到文本到视频(Text-to-Video, T2V)生成领域仍然面临诸多挑战。视频生成不仅需要生成视觉上逼真的图像,还需要确保时间上的连贯性,同时保留预训练T2I模型的创造性生成能力。现有的T2V生成方法通常依赖于从零开始训练整个系统,这不仅需要大量的计算资源,还难以在视频质量、训练成本和模型可组合性之间找到平衡。 为了解决这些问题,本文提出了LaVie,一个基于级联视频潜在扩散模型(Cascaded Video Latent Diffusi...

一种增强几何控制和多视图一致性的统一网格和纹理生成框架

一种增强几何控制和多视图一致性的统一网格和纹理生成框架

学术背景 随着游戏、建筑和社交媒体等行业对高质量3D内容的需求不断增加,手动创建3D资产的过程不仅耗时且技术复杂,还成本高昂。特别是在游戏行业,角色和家具等资产的审美质量直接影响游戏环境的沉浸感。建筑行业则需要精确的建筑模型进行可视化、模拟和规划。社交媒体平台则越来越多地利用3D内容增强现实(AR)和虚拟现实(VR)体验。然而,3D模型的真实感往往依赖于详细的网格表示,包括顶点、边、面和纹理。因此,自动化生成可控、高质量的纹理网格成为迫切需求。 现有的生成模型(如GET3D和3DGen)虽然能够同时生成几何和纹理,但往往在几何精度和纹理细节之间难以平衡,导致生成的3D形状几何结构不准确,纹理细节过于粗糙或不真实。为此,本文提出了一种新的框架,将几何生成和纹理生成分离,通过稀疏潜在点扩散模型(...

从行为到自然语言:无人机意图识别的生成方法

基于生成模型的无人机行为意图识别:从行为到自然语言的跨模态研究 背景及研究目标 近年来,无人机(Unmanned Aerial Vehicle,UAV)技术取得飞速发展,广泛应用于民用与军事领域,如搜索救援、农业精准作业和通信中继等。然而,随着无人机群规模的扩大以及智能化水平的提升,空中指挥与控制领域对于更高水平的智能需求日益迫切。在复杂的对抗环境中,提高无人机的“态势感知”(situation awareness)水平已然成为关键问题,尤其是如何有效识别无人机的操作意图。这一识别过程有助于揭示对手操作意图与战术欺骗间的关系,优化信息在指挥层级中的流动,并为决策提供指导。 传统基于分类任务的意图识别方法受到数据库分布失衡和鲁棒性差等问题的限制,导致分类精度难以应用于现实复杂场景。本研究提出了...

Q-Cogni:一种集成因果强化学习框架

科研动态分析报告:Q-Cogni——一种综合的因果强化学习框架 近年来,人工智能(Artificial Intelligence, AI)技术的快速发展促使研究人员在如何构建更高效、更可解释的强化学习(Reinforcement Learning, RL)系统方面进行了深入探索。强化学习因其模仿人类决策过程的能力,在自动化规划、导航、机器人控制和健康诊断等领域得到了广泛应用。然而,现有强化学习方法仍面临诸多挑战:大量样本需求、对环境建模的复杂性、低水平的决策可解释性以及因缺乏因果推理(Causal Inference)导致模型难以应对复杂动态环境。基于这些背景问题,Cristiano da Costa Cunha、Wei Liu、Tim French和Ajmal Mian团队提出了Q-Cog...

低资源领域适应的神经机器翻译中的情景课程学习

Epi-Curriculum:用于低资源领域自适应的情景课程学习 研究背景与问题陈述 近年来,神经机器翻译 (Neural Machine Translation, NMT) 成为自然语言处理技术领域的标杆。然而,尽管神经机器翻译在处理大规模并行语料库任务上的表现已接近人类翻译水平,但其在低资源和新领域的表现仍然不尽如人意。这种不足主要体现在两个方面:模型对领域切换的鲁棒性差以及在目标领域小数据集条件下的适应能力较低。现有研究往往仅解决其中一个问题,比如增强领域切换的鲁棒性或提升对于新领域的适应能力,却缺乏一种能够同时解决这两个关键问题的统一解决方案。 在分析这些问题的背景下,来自University of South Florida的Keyu Chen等学者与Snap Inc.的Di Zh...