更小但更好:用更小的大型语言模型统一布局生成

统一布局生成研究新突破:更小但更强的大语言模型 研究背景与问题提出 布局生成(Layout Generation)是计算机视觉和人机交互领域的重要研究方向,旨在通过算法自动生成符合特定需求的图形界面或排版设计。例如,科学文章、应用程序界面(App UI)、杂志页面以及幻灯片的设计都需要高效且灵活的布局生成方法。然而,传统方法通常针对单一任务或单一领域进行优化,缺乏跨任务和跨领域的通用性。随着深度学习技术的发展,基于Transformer架构的方法逐渐成为主流,但仍面临模型复杂度高、计算成本大等问题。 近年来,大语言模型(Large Language Models, LLMs)在自然语言处理(NLP)领域取得了显著进展,其强大的推理能力为解决复杂任务提供了新的可能性。然而,将LLMs应用于统一...

多视角变换网络(MVTN):3D理解的最新方法

多视角变换网络(MVTN):3D理解的最新方法

多视角变换网络(MVTN)推动3D理解研究的新进展 背景与研究动机 在计算机视觉领域,三维(3D)数据的深度学习研究近年来取得了显著进展,尤其是在分类、分割和检索任务中。然而,如何有效利用三维形状信息仍然是一个重要的挑战。常用的三维数据表示方法包括点云(Point Clouds)、网格(Meshes)和体素(Voxels)。此外,另一种流行的策略是通过多视角投影技术,将3D对象或场景渲染成多个二维(2D)视图。这种方法与人类视觉系统接收的图像流更为相似,并且可以充分利用2D深度学习的先进成果。 多视角方法如MVCNN(Su et al., 2015)通过渲染固定视点的2D图像,显著提升了3D形状分类的性能。然而,这些方法普遍依赖固定的视角配置(如随机采样或预定义视点),难以根据具体任务动态调...

大语言模型利用电子健康记录中识别健康的社会决定因素

大语言模型利用电子健康记录中识别健康的社会决定因素 背景及研究动机 健康社会决定因素(Social Determinants of Health, SDOH)对患者的健康结果具有重要影响。然而,在电子健康记录(EHR)结构化数据中,这些因素的记录往往不完整或缺失。大语言模型(Large Language Models, LLMs)有望从EHR的叙述性文本中高通量提取SDOH,以支持研究和临床护理。然而,类别不平衡和数据限制为这种稀疏记录的关键信息带来了挑战。本文旨在探讨使用LLMs从EHR叙述性文本中提取六种SDOH类别(就业、住房、交通、父母身份、关系和社会支持)的最佳方法。 研究来源 这项研究由Harvard Medical School的Mass General Brigham人工智能...