AutoStory:以最少人力生成多样化故事图像

AutoStory:以最少人力生成多样化故事图像

学术背景与问题提出 故事可视化(Story Visualization)是一项旨在从文本描述的故事中生成一系列视觉上一致的图像的任务。这项任务要求生成的图像不仅要高质量,还要与文本描述保持一致,并且在不同图像中角色的身份和场景也要保持一致。尽管故事可视化在艺术创作、儿童教育和文化传承等领域具有广泛的应用前景,但由于其复杂性,现有的方法往往通过简化问题来处理,例如仅考虑特定的角色和场景,或要求用户提供每张图像的控制条件(如草图)。这些简化使得现有方法在实际应用中表现不佳。 为了解决这些问题,本文提出了一种自动化故事可视化系统,能够以最少的人工交互生成多样化、高质量且一致的故事图像。具体来说,作者利用大语言模型(LLM)的理解和规划能力进行布局规划,然后基于布局利用大规模文本到图像模型生成复杂的...

从行为到自然语言:无人机意图识别的生成方法

基于生成模型的无人机行为意图识别:从行为到自然语言的跨模态研究 背景及研究目标 近年来,无人机(Unmanned Aerial Vehicle,UAV)技术取得飞速发展,广泛应用于民用与军事领域,如搜索救援、农业精准作业和通信中继等。然而,随着无人机群规模的扩大以及智能化水平的提升,空中指挥与控制领域对于更高水平的智能需求日益迫切。在复杂的对抗环境中,提高无人机的“态势感知”(situation awareness)水平已然成为关键问题,尤其是如何有效识别无人机的操作意图。这一识别过程有助于揭示对手操作意图与战术欺骗间的关系,优化信息在指挥层级中的流动,并为决策提供指导。 传统基于分类任务的意图识别方法受到数据库分布失衡和鲁棒性差等问题的限制,导致分类精度难以应用于现实复杂场景。本研究提出了...

基于可控扩散模型的射电天文图像生成方法

RaDiff: 用于无线电天文图生成的可控扩散模型” 全面学术新闻报道 背景介绍 随着平方公里阵列(Square Kilometer Array, SKA)望远镜的建造接近完成,无线电天文学将在宇宙研究领域迎来革命性进展。SKA的灵敏度和空间分辨率达到了前所未有的高度,然而,由其前身望远镜产生的海量数据已经对数据处理提出了严峻挑战。具体来说,后台自动化、高效的数据挖掘工具变得至关重要。自动源检测与分类任务成为研究中的核心问题,尤其对于那些背景噪声显著或源形态复杂的无线电图像(如银河系平面观测)尤为困难。 深度学习(Deep Learning)作为机器学习的一种先进方法,近年来被广泛应用于无线电天文学。然而,此方法依赖于庞大的高质量标注数据集,而无线电天文数据因为人工标注过程复杂且耗时,难以实...

使用等变三维条件扩散模型进行分子连接设计

使用等变三维条件扩散模型进行分子连接设计

从事早期药物发现的科研人员面临着一个巨大挑战,即在大约10的60次方种可能的分子结构中寻找具有药理活性的候选分子。一种成功的解决方案是从较小的”片段”分子着手,这种策略被称为基于片段的药物设计(FBDD)。在FBDD过程中,首先需要利用计算机筛选出与目标蛋白口袋结合的片段,然后再将这些片段连接成单个化合物。连接片段时,需要考虑片段的几何构象以及蛋白质口袋的结构,以设计出高亲和力的潜在药物分子。 这篇论文介绍了一种名为DiffLinker的新型分子线酶(linker)设计方法。它是一种三维Equivariant Diffusion模型,能够给定任意数量的断开的片段,生成连接这些片段的线酶结构。与之前的基于自回归的方法不同,DiffLinker能一次性生成连接两个或更多片段的线酶,无需预先确定线...