针对原子间作用力的几何增强预训练

针对原子间作用力的几何增强预训练 引言 分子动力学(MD)模拟在物理、化学、生物和材料科学等领域扮演着重要角色,为原子水平的过程提供了洞见。MD模拟的精确度和效率取决于所选择描述分子体系中原子相互作用的相互原子作用力(interatomic potentials)函数。经典MD使用经验公式,参数需要拟合,计算代价低但精度不够。而第一性原理MD则通过求解薛定谔方程获得精确的相互作用力,但计算量极大。因此,机器学习相互原子作用力(MLIPs)通过使用机器学习模型拟合第一性原理计算的能量和力而达到接近ab initio的精度以及较高效率,成为一种有前景的替代方案。 MLIPs的性能和通用性受限于标记数据的稀缺性,因为获取标记数据需要耗费巨大的第一性原理计算代价。各种自监督学习方法已被探索过,以从大...

基于深度学习和语音合成的神经语音解码框架

基于深度学习和语音合成的神经语音解码框架

神经科学研究获重大突破:深度学习技术实现从脑电信号解码出自然语音 纽约大学一个跨学科研究团队最近在神经科学和人工智能界取得重大突破。他们开发出一种基于深度学习的新框架,能够直接从人脑的神经信号中解码并合成出自然的人声。这项创新性成果有望为失语和失音症患者研发出新一代语音类脑机接口。 研究动机 语音障碍严重影响患者的社交和生活质量。过去几十年,研究人员一直致力于开发能从大脑解码并合成语音的神经假体,以帮助这些患者重建交流能力。然而,由于训练所需的大脑和语音数据的稀缺性、语音生成过程的复杂性和高维度性,构建高性能语音解码系统一直是个巨大的挑战。 研究成果精髓 该团队提出了一种创新的基于深度学习的语音解码框架,核心包括两个模块:(1)一个”脑电解码器”,将植入大脑皮层的电极阵列(ECoG)采集的脑...

使用等变三维条件扩散模型进行分子连接设计

使用等变三维条件扩散模型进行分子连接设计

从事早期药物发现的科研人员面临着一个巨大挑战,即在大约10的60次方种可能的分子结构中寻找具有药理活性的候选分子。一种成功的解决方案是从较小的”片段”分子着手,这种策略被称为基于片段的药物设计(FBDD)。在FBDD过程中,首先需要利用计算机筛选出与目标蛋白口袋结合的片段,然后再将这些片段连接成单个化合物。连接片段时,需要考虑片段的几何构象以及蛋白质口袋的结构,以设计出高亲和力的潜在药物分子。 这篇论文介绍了一种名为DiffLinker的新型分子线酶(linker)设计方法。它是一种三维Equivariant Diffusion模型,能够给定任意数量的断开的片段,生成连接这些片段的线酶结构。与之前的基于自回归的方法不同,DiffLinker能一次性生成连接两个或更多片段的线酶,无需预先确定线...

使用图transformer模型进行小分子的质谱预测

这是一篇关于用于小分子质谱预测的图transformers模型(MassFormer)的论文。该研究针对质谱数据中的分子鉴定问题,提出了一种新的深度学习方法来预测小分子的质谱图谱。 背景介绍: 质谱(MS)是一种广泛应用于多个领域(如蛋白质组学、代谢组学、环境化学等)的分析技术,用于鉴定和定量样品中的化学物质。然而,对于大多数小分子,由于其碎裂过程的复杂性,准确模拟质谱图谱一直是该领域的一个关键挑战。现有的基于规则的方法(如CFM)存在性能和适用范围的限制。近年来,深度学习方法被应用于质谱预测,但现有模型主要基于分子指纹或局部图神经网络,无法有效建模分子全局结构和远程原子相互作用对碎裂的影响。 研究来源: 该研究由来自多伦多大学和矢量人工智能研究所的Adamo Young、Hannes Rö...

利用生成扩散模型合成拉格朗日湍流

当前,对于湍流中被流体所携带微粒的统计和几何学性质的研究存在重大挑战。尽管过去30年来在理论、数值模拟和实验方面做出了卓越的努力,但目前仍然缺乏能够真实再现湍流微粒轨迹统计和拓扑特性的模型。本研究提出了一种基于最新扩散模型(diffusion model)的机器学习方法,可以生成三维高雷诺数湍流中单个微粒轨迹,从而绕过直接数值模拟或实验获取可靠拉格朗日数据的需求。 论文信息: 本文作者来自罗马大学等机构,发表于2024年4月的《自然机器智能》(Nature Machine Intelligence)期刊。 研究方法: (a) 研究流程 该研究首先利用直接数值模拟(DNS)生成三维纳维-斯托克斯方程组的高雷诺数湍流场,并追踪大量(327,680条)拉格朗日微粒轨迹,构建高质量的训练数据集。然后...

构建复杂系统模拟的准确替代模型的高效学习

该研究提出了一种在线学习方法,用于高效构建能够准确模拟复杂系统的代理模型。该方法主要包括三个关键组成部分: 采样策略,用于生成新的训练和测试数据; 学习策略,用于根据训练数据生成候选代理模型; 验证指标,用于评估候选代理模型在测试数据上的有效性。 文中作者使用径向基函数(RBF)插值作为代理模型的响应面。该在线方法旨在确保代理模型包含响应面的所有局部极值点(包括端点),并采用连续验证和更新机制,当代理模型的性能低于有效性阈值时会重新训练。 作者的主要创新点是: 提出了一种优化器驱动的采样策略,可以确保训练数据包含响应面的所有局部极值点,从而保证了长期代理模型的有效性。 设计了一种自动化的在线学习工作流程,包括显式的验证和更新机制,以生成对未来所有数据都有效的代理模型。 研究过程: a) 验证...

探索大型语言模型的道德和法律推理心理

当今,大型语言模型(LLM)在多个领域展现出专家级的表现,这引发了人们对其内在推理过程的浓厚兴趣。理解LLM是如何产生这些惊人的结果,对于未来人工智能代理的发展和确保其与人类价值观相一致都具有重要意义。然而,现有LLM的架构使得解释其内在过程颇为困难。因此,研究人员开始借鉴心理学研究中常用的方法来探索LLM的推理模式,产生了”机器心理学”这一新兴研究领域。 本文作者 本论文的作者来自不同机构: - Guilherme F.C.F. Almeida,Insper教育与研究学院,巴西 - José Luiz Nunes,天主教里约大学信息学系,巴西; FGV里约法学院,巴西 - Neele Engelmann,波鸿鲁尔大学,德国;人机中心,马克斯·普朗克人类发展研究所,德国 - Alex Wie...

通过对比自去偏与双重数据增广缓解预训练语言模型的社会偏见

引言: 当前,预训练语言模型(PLM)在自然语言处理领域获得了广泛应用,但它们存在继承并放大训练语料中的社会偏见的问题。社会偏见可能导致PLM在现实应用中产生不可预测的风险,如自动求职筛选系统会由于性别偏见而将需要逻辑能力的工作(如医生、程序员等)倾向于分配给男性,将需要照顾能力的工作(如护士、保姆等)分配给女性;医疗系统则可能存在种族偏见,计算显示在相同风险水平下,黑人病人比白人病人更”虚弱”。因此,消除PLM编码中的社会偏见成为一个富有意义且具有挑战性的研究领域。 论文来源: 该论文发表于2024年的权威期刊《人工智能》(Artificial Intelligence)第332期,第作者为李颖吉,第二作者为Mengnan Du,其余作者分别来自吉林大学计算机科学与技术学院、新泽西理工学院...

在非凸模型和异质数据环境下解决去中心化SGD问题的一种通用的动量范式

在非凸模型和异质数据环境下解决去中心化SGD问题的一种通用的动量范式 研究背景介绍 近年来,随着物联网和边缘计算的兴起,分布式机器学习得到了迅猛发展,尤其是去中心化训练范式。然而,在实际场景中,非凸目标函数和数据异质性成为制约分布式训练效率与性能的两大瓶颈问题。 非凸优化目标函数广泛存在于深度学习模型中,它们可能存在多个局部最优解,从而导致模型精度下降、训练过程不稳定等问题。同时,在分布式环境下,参与计算的各节点持有的数据分布存在差异(即异质性),此种数据偏差会给收敛性和泛化性能带来不利影响,成为另一个亟待解决的挑战。 文章来源 本文发表于著名期刊《人工智能》(Artificial Intelligence)2024年第332期,作者来自上海电力大学计算机科学与技术学院。 研究工作 3.1 ...

通过概念化的方法来获取和建模抽象常识知识

引言 人工智能系统对常识知识的缺乏一直是制约该领域发展的主要瓶颈之一。尽管在近年来通过神经语言模型和常识知识图谱获得了长足进展,但”概念化”这一人类智慧的关键组成部分却未能很好地在人工智能系统中体现。人类通过将具体事物或情境概念化为抽象概念并基于此进行推理,来获取和理解世界上无穷无尽的实体和情景。然而,有限的知识图谱无法涵盖现实世界中种类繁多的实体和情景,更不用说对它们之间的关系和推论了。 本项研究深入探讨了概念化在常识推理中的作用,并构建了一个框架来模拟人类的概念归纳过程:从现有的情景常识知识图谱中汲取有关抽象概念的事件知识,以及更高层次的关于这些抽象概念的三元组或推理。该框架首先对常识知识图谱ATOMIC中的事件实例进行概念识别和概念化,利用语言模型和启发式规则生成表示抽象概念的抽象事件...