LDTrack:基于条件潜在扩散模型的服务机器人动态人员跟踪

基于扩散模型的服务机器人动态人员跟踪 学术背景 在复杂和拥挤的人类中心环境中,动态人员的跟踪是机器人技术中的一个具有挑战性的问题。由于存在遮挡、姿态变形和光照变化等类内差异,传统的跟踪方法往往难以准确识别和跟踪目标。现有的机器人跟踪方法通常依赖于独立的检测和跟踪系统,这种方法在计算效率和实时性方面存在瓶颈,尤其是在面对类内差异时,检测器的失败可能导致跟踪的中断。 为了解决这些问题,本文提出了一种基于条件潜在扩散模型(Conditional Latent Diffusion Models)的新型深度学习架构——潜在扩散跟踪(Latent Diffusion Track, LDTrack)。该架构通过捕捉时间上的人员嵌入(temporal person embeddings),能够适应人员外观随...

AutoStory:以最少人力生成多样化故事图像

AutoStory:以最少人力生成多样化故事图像

学术背景与问题提出 故事可视化(Story Visualization)是一项旨在从文本描述的故事中生成一系列视觉上一致的图像的任务。这项任务要求生成的图像不仅要高质量,还要与文本描述保持一致,并且在不同图像中角色的身份和场景也要保持一致。尽管故事可视化在艺术创作、儿童教育和文化传承等领域具有广泛的应用前景,但由于其复杂性,现有的方法往往通过简化问题来处理,例如仅考虑特定的角色和场景,或要求用户提供每张图像的控制条件(如草图)。这些简化使得现有方法在实际应用中表现不佳。 为了解决这些问题,本文提出了一种自动化故事可视化系统,能够以最少的人工交互生成多样化、高质量且一致的故事图像。具体来说,作者利用大语言模型(LLM)的理解和规划能力进行布局规划,然后基于布局利用大规模文本到图像模型生成复杂的...

基于级联潜在扩散模型的高质量视频生成框架LaVie

基于级联潜在扩散模型的高质量视频生成框架LaVie

基于级联潜在扩散模型的高质量视频生成:LaVie 学术背景 近年来,随着扩散模型(Diffusion Models, DMs)在图像生成领域的突破性进展,文本到图像(Text-to-Image, T2I)生成技术已经取得了显著的成功。然而,将这一技术扩展到文本到视频(Text-to-Video, T2V)生成领域仍然面临诸多挑战。视频生成不仅需要生成视觉上逼真的图像,还需要确保时间上的连贯性,同时保留预训练T2I模型的创造性生成能力。现有的T2V生成方法通常依赖于从零开始训练整个系统,这不仅需要大量的计算资源,还难以在视频质量、训练成本和模型可组合性之间找到平衡。 为了解决这些问题,本文提出了LaVie,一个基于级联视频潜在扩散模型(Cascaded Video Latent Diffusi...

基于可控扩散模型的射电天文图像生成方法

RaDiff: 用于无线电天文图生成的可控扩散模型” 全面学术新闻报道 背景介绍 随着平方公里阵列(Square Kilometer Array, SKA)望远镜的建造接近完成,无线电天文学将在宇宙研究领域迎来革命性进展。SKA的灵敏度和空间分辨率达到了前所未有的高度,然而,由其前身望远镜产生的海量数据已经对数据处理提出了严峻挑战。具体来说,后台自动化、高效的数据挖掘工具变得至关重要。自动源检测与分类任务成为研究中的核心问题,尤其对于那些背景噪声显著或源形态复杂的无线电图像(如银河系平面观测)尤为困难。 深度学习(Deep Learning)作为机器学习的一种先进方法,近年来被广泛应用于无线电天文学。然而,此方法依赖于庞大的高质量标注数据集,而无线电天文数据因为人工标注过程复杂且耗时,难以实...

基于扩散模型的特征增强在整张切片图像多实例学习中的应用

基于扩散模型的特征增强:针对全视野病理图像多实例学习的新方法 学术背景与研究动机 在计算病理学(computational pathology)领域,如何有效分析全视野扫描病理图像(Whole Slide Images,WSIs)是当前研究的热点。WSIs 是超高分辨率的图像,通常具有广域的视野,广泛用于癌症诊断。然而,由于病例标记的稀缺性以及图像自身的体量庞大,基于深度学习的多实例学习(Multiple Instance Learning,MIL)在WSI的自动化分析中面临诸多挑战。 MIL 是一种经典的弱监督学习方法,核心思路在于将整个WSI看作一个“袋”级别的实例,而每块小图像(patch)作为单独的“袋中实例”。虽然袋级别的标签已知,但单个实例的标签未知。在 MIL 的应用中,常见的...

StyleAdapter:一种统一风格化的图像生成模型

StyleAdapter:一种统一风格化的图像生成模型 近年来,文本到图像(Text-to-Image, T2I)生成技术和深度学习模型的快速发展,显著推动了人工智能在图像生成领域的研究进展。然而,将参考图像的特定风格融入文本生成的高质量图像中仍然是一个挑战。为了解决这一问题,Zhouxia Wang等人提出了一种名为StyleAdapter的统一风格化图像生成模型。这篇论文发表于International Journal of Computer Vision,由香港大学、腾讯ARC Lab、澳门大学以及上海人工智能实验室的研究人员共同完成。 研究背景与意义 目前主流的风格化图像生成方法包括DreamBooth和LoRA。这些方法通过对原始扩散模型进行微调,或增加额外的小型网络来适应特定风格...

利用基于扩散模型的深度学习算法增强超结构成像与体积电子显微镜

利用基于扩散模型的深度学习算法增强超结构成像与体积电子显微镜

利用基于扩散模型的深度学习算法增强超结构成像与体积电子显微镜 背景介绍 电子显微镜(Electron Microscopy,简称EM)作为一种高分辨率成像工具,对细胞生物学取得了重大突破。传统的EM技术主要用于二维成像,尽管已经揭示了复杂的纳米级别细胞结构,但在研究三维(3D)结构时存在一定局限性。体积电子显微镜(Volume Electron Microscopy,简称VEM)作为一种更为先进的技术,通过串联切片和断层扫描技术(如透射电子显微镜TEM和扫描电子显微镜SEM)实现了细胞和组织的3D成像,可以提取细胞、组织甚至小模型生物体的纳米级3D结构。 尽管VEM技术突破了传统二维EM的局限性,但其成像速度和质量之间存在固有的权衡关系,导致成像区域和体积的限制。此外,生成各向同性(isot...

Dimond: 通过深度学习优化扩散模型的研究

Dimond: 通过深度学习优化扩散模型的研究

Dimond: 通过深度学习优化扩散模型的研究 学术背景 在脑科学和临床应用中,扩散磁共振成像(Diffusion Magnetic Resonance Imaging, dMRI)是一种用于非侵入性绘制脑组织微观结构和神经联通性的重要工具。然而,准确估算扩散信号模型参数的计算成本较高,同时易受到图像噪声的影响。现有的多种基于深度学习的有监督估算方法展示了其在提高效率和性能上的潜力,但这些方法通常需要额外的训练数据,并存在泛化性不足的问题。 论文来源 此研究由Zihan Li、Ziyu Li、Berkin Bilgic、Hong-Hsi Lee、Kui Ying、Susie Y. Huang、Hongen Liao和Qiyuan Tian(通讯作者)合作完成,论文发表在《Advanced S...

利用生成扩散模型合成拉格朗日湍流

当前,对于湍流中被流体所携带微粒的统计和几何学性质的研究存在重大挑战。尽管过去30年来在理论、数值模拟和实验方面做出了卓越的努力,但目前仍然缺乏能够真实再现湍流微粒轨迹统计和拓扑特性的模型。本研究提出了一种基于最新扩散模型(diffusion model)的机器学习方法,可以生成三维高雷诺数湍流中单个微粒轨迹,从而绕过直接数值模拟或实验获取可靠拉格朗日数据的需求。 论文信息: 本文作者来自罗马大学等机构,发表于2024年4月的《自然机器智能》(Nature Machine Intelligence)期刊。 研究方法: (a) 研究流程 该研究首先利用直接数值模拟(DNS)生成三维纳维-斯托克斯方程组的高雷诺数湍流场,并追踪大量(327,680条)拉格朗日微粒轨迹,构建高质量的训练数据集。然后...