扩散模型-术语-FmRead学术前沿

基于光谱扩散后验采样的多材料分解研究背景介绍在医学成像领域，CT（计算机断层扫描）技术被广泛应用于疾病诊断和治疗规划。近年来，谱CT（spectral CT）因其能够提供能量依赖的衰减信息，成为研究热点。谱CT通过多能量通道的投影数据，可以重建出不同材料的密度分布，这一过程称为材料分解（material decomposition）。然而，材料分解是一个高度非线性的逆问题，传统的分解方法如解析分解（analytical decomposition）和迭代模型分解（iterative/model-based decomposition）存在诸多局限性，如计算效率低、噪声大、模型依赖性强等。此外，尽管基于深度学习的分解方法在精度和速度上有显著提升，但它们往往缺乏对物理模型的显式利用，导致鲁棒...

TryOn-Adapter——高效细粒度服装身份适配的高保真虚拟试穿研究背景与问题虚拟试穿（Virtual Try-On）技术近年来受到广泛关注，其核心目标是将给定的服装无缝调整到特定人物身上，同时避免服装图案和纹理的失真。然而，现有的基于扩散模型（Diffusion Model）的方法在保持服装身份一致性方面存在显著局限性，即使通过全参数微调也难以完全控制服装的身份特征。此外，这些方法通常需要高昂的训练成本，限制了其广泛应用。为了解决这些问题，本研究提出了一种新颖的框架——TryOn-Adapter，旨在实现高效的服装身份适配，同时降低训练资源消耗。具体而言，研究者将服装身份解耦为三个细粒度因素：风格（Style）、纹理（Texture）和结构（Structure），并通过定制的轻量...

脑启发的低能耗生成模型——Spiking Diffusion Models研究评述背景概述近年来，人工智能领域涌现出众多前沿技术，其中深度生成模型（Deep Generative Models, DGMs）通过生成图像、文本等数据表现出了卓越的能力。然而，这些生成模型通常依赖人工神经网络（Artificial Neural Networks, ANNs）作为骨干网络，其高度依赖算力和内存资源的特性使其在大规模应用中面临显著的能耗问题。同时，与人类大脑相比，ANNs的能耗效率远不及人类大脑的20瓦功率水平，这导致研究人员对更高能效的神经网络架构产生了兴趣。与ANNs不同，脉冲神经网络（Spiking Neural Networks, SNNs）以大脑神经元的工作方式为启发，以事件驱动的方...

基于扩散模型的服务机器人动态人员跟踪学术背景在复杂和拥挤的人类中心环境中，动态人员的跟踪是机器人技术中的一个具有挑战性的问题。由于存在遮挡、姿态变形和光照变化等类内差异，传统的跟踪方法往往难以准确识别和跟踪目标。现有的机器人跟踪方法通常依赖于独立的检测和跟踪系统，这种方法在计算效率和实时性方面存在瓶颈，尤其是在面对类内差异时，检测器的失败可能导致跟踪的中断。为了解决这些问题，本文提出了一种基于条件潜在扩散模型（Conditional Latent Diffusion Models）的新型深度学习架构——潜在扩散跟踪（Latent Diffusion Track, LDTrack）。该架构通过捕捉时间上的人员嵌入（temporal person embeddings），能够适应人员外观随...

学术背景与问题提出故事可视化（Story Visualization）是一项旨在从文本描述的故事中生成一系列视觉上一致的图像的任务。这项任务要求生成的图像不仅要高质量，还要与文本描述保持一致，并且在不同图像中角色的身份和场景也要保持一致。尽管故事可视化在艺术创作、儿童教育和文化传承等领域具有广泛的应用前景，但由于其复杂性，现有的方法往往通过简化问题来处理，例如仅考虑特定的角色和场景，或要求用户提供每张图像的控制条件（如草图）。这些简化使得现有方法在实际应用中表现不佳。为了解决这些问题，本文提出了一种自动化故事可视化系统，能够以最少的人工交互生成多样化、高质量且一致的故事图像。具体来说，作者利用大语言模型（LLM）的理解和规划能力进行布局规划，然后基于布局利用大规模文本到图像模型生成复杂的...

基于级联潜在扩散模型的高质量视频生成：LaVie 学术背景近年来，随着扩散模型（Diffusion Models, DMs）在图像生成领域的突破性进展，文本到图像（Text-to-Image, T2I）生成技术已经取得了显著的成功。然而，将这一技术扩展到文本到视频（Text-to-Video, T2V）生成领域仍然面临诸多挑战。视频生成不仅需要生成视觉上逼真的图像，还需要确保时间上的连贯性，同时保留预训练T2I模型的创造性生成能力。现有的T2V生成方法通常依赖于从零开始训练整个系统，这不仅需要大量的计算资源，还难以在视频质量、训练成本和模型可组合性之间找到平衡。为了解决这些问题，本文提出了LaVie，一个基于级联视频潜在扩散模型（Cascaded Video Latent Diffusi...

RaDiff: 用于无线电天文图生成的可控扩散模型” 全面学术新闻报道背景介绍随着平方公里阵列(Square Kilometer Array, SKA)望远镜的建造接近完成，无线电天文学将在宇宙研究领域迎来革命性进展。SKA的灵敏度和空间分辨率达到了前所未有的高度，然而，由其前身望远镜产生的海量数据已经对数据处理提出了严峻挑战。具体来说，后台自动化、高效的数据挖掘工具变得至关重要。自动源检测与分类任务成为研究中的核心问题，尤其对于那些背景噪声显著或源形态复杂的无线电图像（如银河系平面观测）尤为困难。深度学习（Deep Learning）作为机器学习的一种先进方法，近年来被广泛应用于无线电天文学。然而，此方法依赖于庞大的高质量标注数据集，而无线电天文数据因为人工标注过程复杂且耗时，难以实...

基于扩散模型的特征增强：针对全视野病理图像多实例学习的新方法学术背景与研究动机在计算病理学（computational pathology）领域，如何有效分析全视野扫描病理图像（Whole Slide Images，WSIs）是当前研究的热点。WSIs 是超高分辨率的图像，通常具有广域的视野，广泛用于癌症诊断。然而，由于病例标记的稀缺性以及图像自身的体量庞大，基于深度学习的多实例学习（Multiple Instance Learning，MIL）在WSI的自动化分析中面临诸多挑战。 MIL 是一种经典的弱监督学习方法，核心思路在于将整个WSI看作一个“袋”级别的实例，而每块小图像（patch）作为单独的“袋中实例”。虽然袋级别的标签已知，但单个实例的标签未知。在 MIL 的应用中，常见的...

StyleAdapter：一种统一风格化的图像生成模型近年来，文本到图像（Text-to-Image, T2I）生成技术和深度学习模型的快速发展，显著推动了人工智能在图像生成领域的研究进展。然而，将参考图像的特定风格融入文本生成的高质量图像中仍然是一个挑战。为了解决这一问题，Zhouxia Wang等人提出了一种名为StyleAdapter的统一风格化图像生成模型。这篇论文发表于International Journal of Computer Vision，由香港大学、腾讯ARC Lab、澳门大学以及上海人工智能实验室的研究人员共同完成。研究背景与意义目前主流的风格化图像生成方法包括DreamBooth和LoRA。这些方法通过对原始扩散模型进行微调，或增加额外的小型网络来适应特定风格...

利用基于扩散模型的深度学习算法增强超结构成像与体积电子显微镜背景介绍电子显微镜（Electron Microscopy，简称EM）作为一种高分辨率成像工具，对细胞生物学取得了重大突破。传统的EM技术主要用于二维成像，尽管已经揭示了复杂的纳米级别细胞结构，但在研究三维（3D）结构时存在一定局限性。体积电子显微镜（Volume Electron Microscopy，简称VEM）作为一种更为先进的技术，通过串联切片和断层扫描技术（如透射电子显微镜TEM和扫描电子显微镜SEM）实现了细胞和组织的3D成像，可以提取细胞、组织甚至小模型生物体的纳米级3D结构。尽管VEM技术突破了传统二维EM的局限性，但其成像速度和质量之间存在固有的权衡关系，导致成像区域和体积的限制。此外，生成各向同性（isot...

基于光谱扩散后验采样的多材料分解

TryOn-Adapter：高效细粒度服装身份适应的高保真虚拟试穿

尖峰扩散模型

LDTrack：基于条件潜在扩散模型的服务机器人动态人员跟踪

AutoStory：以最少人力生成多样化故事图像

基于级联潜在扩散模型的高质量视频生成框架LaVie

基于可控扩散模型的射电天文图像生成方法

基于扩散模型的特征增强在整张切片图像多实例学习中的应用

StyleAdapter：一种统一风格化的图像生成模型

利用基于扩散模型的深度学习算法增强超结构成像与体积电子显微镜