更小但更好:用更小的大型语言模型统一布局生成

统一布局生成研究新突破:更小但更强的大语言模型 研究背景与问题提出 布局生成(Layout Generation)是计算机视觉和人机交互领域的重要研究方向,旨在通过算法自动生成符合特定需求的图形界面或排版设计。例如,科学文章、应用程序界面(App UI)、杂志页面以及幻灯片的设计都需要高效且灵活的布局生成方法。然而,传统方法通常针对单一任务或单一领域进行优化,缺乏跨任务和跨领域的通用性。随着深度学习技术的发展,基于Transformer架构的方法逐渐成为主流,但仍面临模型复杂度高、计算成本大等问题。 近年来,大语言模型(Large Language Models, LLMs)在自然语言处理(NLP)领域取得了显著进展,其强大的推理能力为解决复杂任务提供了新的可能性。然而,将LLMs应用于统一...

有限数据下的图像合成:综述与分类法

图像合成在有限数据下的研究综述 研究背景与问题提出 近年来,深度生成模型(Deep Generative Models)在智能创作任务中取得了前所未有的进展,特别是在图像和视频生成、音频合成等领域。然而,这些模型的成功依赖于大量的训练数据和计算资源。当训练数据有限时,生成模型容易出现过拟合(Overfitting)和记忆化(Memorization)问题,导致生成样本的质量和多样性显著下降。这种限制对许多实际应用场景构成了挑战,例如医学影像生成、工业缺陷检测以及艺术品创作等。 为了应对这些问题,研究人员致力于开发能够在有限数据条件下生成高质量、多样化图像的新模型。尽管已有许多研究尝试解决这一问题,但目前尚缺乏系统性的综述来明确以下几点: 1. 有限数据下图像合成的定义、挑战及分类; 2. 对...

AutoStory:以最少人力生成多样化故事图像

AutoStory:以最少人力生成多样化故事图像

学术背景与问题提出 故事可视化(Story Visualization)是一项旨在从文本描述的故事中生成一系列视觉上一致的图像的任务。这项任务要求生成的图像不仅要高质量,还要与文本描述保持一致,并且在不同图像中角色的身份和场景也要保持一致。尽管故事可视化在艺术创作、儿童教育和文化传承等领域具有广泛的应用前景,但由于其复杂性,现有的方法往往通过简化问题来处理,例如仅考虑特定的角色和场景,或要求用户提供每张图像的控制条件(如草图)。这些简化使得现有方法在实际应用中表现不佳。 为了解决这些问题,本文提出了一种自动化故事可视化系统,能够以最少的人工交互生成多样化、高质量且一致的故事图像。具体来说,作者利用大语言模型(LLM)的理解和规划能力进行布局规划,然后基于布局利用大规模文本到图像模型生成复杂的...

从行为到自然语言:无人机意图识别的生成方法

基于生成模型的无人机行为意图识别:从行为到自然语言的跨模态研究 背景及研究目标 近年来,无人机(Unmanned Aerial Vehicle,UAV)技术取得飞速发展,广泛应用于民用与军事领域,如搜索救援、农业精准作业和通信中继等。然而,随着无人机群规模的扩大以及智能化水平的提升,空中指挥与控制领域对于更高水平的智能需求日益迫切。在复杂的对抗环境中,提高无人机的“态势感知”(situation awareness)水平已然成为关键问题,尤其是如何有效识别无人机的操作意图。这一识别过程有助于揭示对手操作意图与战术欺骗间的关系,优化信息在指挥层级中的流动,并为决策提供指导。 传统基于分类任务的意图识别方法受到数据库分布失衡和鲁棒性差等问题的限制,导致分类精度难以应用于现实复杂场景。本研究提出了...

基于可控扩散模型的射电天文图像生成方法

RaDiff: 用于无线电天文图生成的可控扩散模型” 全面学术新闻报道 背景介绍 随着平方公里阵列(Square Kilometer Array, SKA)望远镜的建造接近完成,无线电天文学将在宇宙研究领域迎来革命性进展。SKA的灵敏度和空间分辨率达到了前所未有的高度,然而,由其前身望远镜产生的海量数据已经对数据处理提出了严峻挑战。具体来说,后台自动化、高效的数据挖掘工具变得至关重要。自动源检测与分类任务成为研究中的核心问题,尤其对于那些背景噪声显著或源形态复杂的无线电图像(如银河系平面观测)尤为困难。 深度学习(Deep Learning)作为机器学习的一种先进方法,近年来被广泛应用于无线电天文学。然而,此方法依赖于庞大的高质量标注数据集,而无线电天文数据因为人工标注过程复杂且耗时,难以实...

使用等变三维条件扩散模型进行分子连接设计

使用等变三维条件扩散模型进行分子连接设计

从事早期药物发现的科研人员面临着一个巨大挑战,即在大约10的60次方种可能的分子结构中寻找具有药理活性的候选分子。一种成功的解决方案是从较小的”片段”分子着手,这种策略被称为基于片段的药物设计(FBDD)。在FBDD过程中,首先需要利用计算机筛选出与目标蛋白口袋结合的片段,然后再将这些片段连接成单个化合物。连接片段时,需要考虑片段的几何构象以及蛋白质口袋的结构,以设计出高亲和力的潜在药物分子。 这篇论文介绍了一种名为DiffLinker的新型分子线酶(linker)设计方法。它是一种三维Equivariant Diffusion模型,能够给定任意数量的断开的片段,生成连接这些片段的线酶结构。与之前的基于自回归的方法不同,DiffLinker能一次性生成连接两个或更多片段的线酶,无需预先确定线...