AutoStory:以最少人力生成多样化故事图像

AutoStory:以最少人力生成多样化故事图像

学术背景与问题提出 故事可视化(Story Visualization)是一项旨在从文本描述的故事中生成一系列视觉上一致的图像的任务。这项任务要求生成的图像不仅要高质量,还要与文本描述保持一致,并且在不同图像中角色的身份和场景也要保持一致。尽管故事可视化在艺术创作、儿童教育和文化传承等领域具有广泛的应用前景,但由于其复杂性,现有的方法往往通过简化问题来处理,例如仅考虑特定的角色和场景,或要求用户提供每张图像的控制条件(如草图)。这些简化使得现有方法在实际应用中表现不佳。 为了解决这些问题,本文提出了一种自动化故事可视化系统,能够以最少的人工交互生成多样化、高质量且一致的故事图像。具体来说,作者利用大语言模型(LLM)的理解和规划能力进行布局规划,然后基于布局利用大规模文本到图像模型生成复杂的...

基于扩散模型的特征增强在整张切片图像多实例学习中的应用

基于扩散模型的特征增强:针对全视野病理图像多实例学习的新方法 学术背景与研究动机 在计算病理学(computational pathology)领域,如何有效分析全视野扫描病理图像(Whole Slide Images,WSIs)是当前研究的热点。WSIs 是超高分辨率的图像,通常具有广域的视野,广泛用于癌症诊断。然而,由于病例标记的稀缺性以及图像自身的体量庞大,基于深度学习的多实例学习(Multiple Instance Learning,MIL)在WSI的自动化分析中面临诸多挑战。 MIL 是一种经典的弱监督学习方法,核心思路在于将整个WSI看作一个“袋”级别的实例,而每块小图像(patch)作为单独的“袋中实例”。虽然袋级别的标签已知,但单个实例的标签未知。在 MIL 的应用中,常见的...

从图像生成到衰减校正的直接正电子发射无重建成像系统设计

从图像生成到衰减校正的直接正电子发射无重建成像系统设计

背景介绍 一百年前,Hevesy首次提出利用放射性示踪剂作为植物的生物指标,并后来在大鼠实验中得到验证。这一发现推动了核医学和分子成像作为生物医学领域的发展,使得在分子层面定量可视化生物过程成为可能。在众多成像技术中,单光子发射计算机断层扫描(SPECT)和正电子发射断层扫描(PET)显得尤为重要,它们能够通过标记化合物来定量检测生物功能和代谢。在这些技术发展的过程中,通过融合X射线计算机断层扫描(CT)或磁共振成像(MRI)获取解剖信息,进一步提升了诊断和数据修正的准确性。 然而,现有系统的一大限制在于图像重建过程中存在的时间消耗和噪声传播问题。鉴于此,近年来研究人员开始探索不依赖数学重建步骤的新一代分子成像方法,即直接正电子发射成像(DPEI)。DPEI利用超快飞行时间(TOF)探测器,...