基于内存计算的深度贝叶斯主动学习研究

随着人工智能(AI)技术的快速发展,深度学习在复杂任务中取得了显著进展。然而,深度学习的成功在很大程度上依赖于大量标注数据,而数据的标注过程不仅耗时、劳动密集,还需要专业的领域知识,成本高昂。特别是在一些专业领域中,如机器人技能学习、催化剂发现、药物发现和蛋白质生产优化等,获取标注数据的难度和成本尤其突出。为了解决这一问题,深度贝叶斯主动学习(Deep Bayesian Active Learning, DBAL)应运而生。DBAL通过主动选择最有信息量的数据进行标注,显著提高了标注效率,从而在有限标注数据的情况下实现高质量的学习。 然而,DBAL的实现面临着一个重要的技术挑战:它需要处理大量的随机变量和高带宽的数据传输,这对传统的确定性硬件提出了极高的要求。传统的互补金属氧化物半导体(Co...

形态优化与形态变换问题的可编程环境

可编程形状优化与形变问题的研究:Morpho环境的开发与应用 学术背景 软材料(soft materials)在科学和工程领域中扮演着至关重要的角色,特别是在软体机器人、结构流体、生物材料与颗粒介质等领域。这些材料在机械、电磁或化学刺激下会发生显著的形状变化。理解并预测这些材料的形状变化,对于优化设计及其背后的物理机理具有重要意义。然而,形状优化问题通常非常复杂,现有的模拟工具要么功能有限,要么不够通用,导致研究人员在处理这类问题时面临诸多挑战。 为了解决这一难题,研究人员开发了一个开源的、可编程的优化环境——Morpho,旨在为形状优化问题提供一个通用且易于使用的工具。Morpho能够处理多种软材料物理问题,如膨胀水凝胶(swelling hydrogels)、复杂流体中的非球形液滴、肥皂...

通过多任务学习接近耦合簇精度的分子电子结构

机器学习助力量子化学:逼近耦合簇精度的分子电子结构预测 学术背景 在物理学、化学和材料科学领域,计算方法是揭示各种物理现象背后机制和加速材料设计的关键工具。然而,量子化学计算(尤其是电子结构计算)通常是计算瓶颈,限制了计算速度和可扩展性。尽管近年来机器学习方法在加速分子动力学模拟和提高精度方面取得显著成功,但现有的机器学习模型大多基于密度泛函理论(DFT)数据库作为训练数据的“真实值”,其预测精度无法超越DFT本身。DFT作为一种平均场理论,其计算通常引入的系统误差比化学精度(1 kcal/mol)大几倍,这限制了基于DFT数据集训练的机器学习模型的整体精度。 相比之下,耦合簇方法(CCSD(T))被认为是量子化学的“金标准”,能够提供各种分子性质的高精度预测。然而,CCSD(T)的计算成本...

STST:动态视觉刺激生成中的时空风格转移算法

关于动态视觉刺激生成的时空风格转移算法的研究报告 学术背景 视觉信息的编码与处理一直是神经科学和视觉科学领域的重要研究方向。随着深度学习技术的快速发展,研究人工视觉系统与生物视觉系统之间的相似性成为热点。然而,视觉研究中生成适当的动态视觉刺激以测试特定假设的方法相对匮乏。现有的静态图像生成方法虽然已有较大进展,但在处理动态视觉刺激时,仍存在灵活性不足、生成结果偏离自然视觉环境统计特性等问题。为此,研究者们开发了一种名为“时空风格转移”(Spatiotemporal Style Transfer, STST)的算法,旨在生成能够匹配自然视频的低级时空特征,同时去除高级语义信息的动态视觉刺激,为研究物体识别提供了有力的工具。 此外,深度学习模型在视觉任务中的表现与生物视觉系统的比较也需要大量的可...

用于加权网络随机化的模拟退火算法

基于模拟退火算法的加权网络随机化研究 背景介绍 在神经科学领域,连接组学(connectomics) 是研究大脑神经网络结构和功能的重要分支。随着现代成像技术的发展,研究人员能够获取到大量的生物意义丰富的边权重(edge weights),这些权重信息对于理解大脑网络的组织和功能至关重要。然而,尽管加权网络分析在连接组学中日益普及,现有的网络随机化模型大多仅保留二元节点度(binary node degree),而忽略了边权重的重要性。这导致在评估网络特征的显著性时,可能无法准确反映出权重信息的影响。 为了解决这一问题,来自McGill University、University of Minnesota等机构的研究团队提出了一种基于模拟退火算法(simulated annealing al...

DiMOn:学习偏微分方程几何依赖解算子的可扩展框架

引言 近年来,利用数值方法求解偏微分方程(Partial Differential Equations, PDEs)已在工程和医学等广泛学科中扮演了重要角色。这些方法在拓扑和设计优化以及临床预测中的应用已显示出显著成效。然而,由于在多种几何体上进行多次问题求解所需的计算成本非常高,导致这些方法在很多场景下变得无法负担。因此,开发能够在不同几何条件下提高PDE求解效率的方法,成为了近年科学机器学习领域的一个研究热点。 论文背景与来源 《A Scalable Framework for Learning the Geometry-Dependent Solution Operators of Partial Differential Equations》这篇文章由Minglang Yin、Nic...

基于预训练大语言模型的人类蛋白质必要性的全面预测与分析

基于预训练大型语言模型的人类蛋白质必要性预测与分析 学术背景 人类必需蛋白质(Human Essential Proteins, HEPs)对个体的生存和发育至关重要。然而,实验方法识别HEPs通常成本高、耗时长且劳动强度大。此外,现有的计算方法仅在细胞系水平上预测HEPs,但HEPs在活体人类、细胞系和动物模型之间差异显著。因此,开发一种能够在多个水平上全面预测HEPs的计算方法显得尤为重要。最近,大型语言模型(Large Language Models, LLMs)在自然语言处理领域取得了显著成功,蛋白质语言模型(Protein Language Models, PLMs)也因其能够在大规模蛋白质序列上进行预训练而崭露头角。然而,PLMs是否能够显著提高蛋白质必要性预测任务的效果仍然未知...

DeepBlock:通过深度学习进行毒性控制的理性配体生成方法

深度学习应用于目标蛋白配体生成的最新研究:DeepBlock框架的提出与验证 背景与研究问题 药物发现过程中,寻找能够结合特定蛋白的配体分子(ligand)一直是核心目标。然而,目前的虚拟筛选方法(virtual screening)通常受限于化合物库的规模和化学空间的广度,难以在大规模化学空间中发现符合目标特性的创新化合物。相比之下,去新药设计(de novo drug design)通过从头生成分子结构,为探索现有化合物库之外的化学空间提供了崭新的可能性。 近年来,深度生成模型(deep generative models)在化学分子生成领域取得了显著进展,包括自回归模型(autoregressive models)、变分自编码器(variational autoencoders, VA...

通过基因型表示图实现生物样本库规模数据的高效分析

基于Genotype Representation Graph (GRG)的研究:提升生物数据分析效率的新框架 学术背景与研究动机 随着测序技术的迅速进步,大规模基因组数据的收集变得愈发普遍,尤其是在人类疾病关联研究领域,基因组数据的分析需求日益增长。2023年底,英国生物银行(UK Biobank)在其云计算平台上发布了约50万份全基因组数据,其中已有20万份完成相位(phased)处理。这类庞大的数据集为科研提供了前所未有的机会,但也带来了新的难题:如何高效地编码和分析如此巨大的基因组数据?传统的二维表格化数据结构(如VCF文件格式)在储存和计算效率方面面临瓶颈,难以应对不断增长的数据需求。 在这一背景下,科学家们提出了新的数据表示和处理方法以优化压缩率和计算性能。本研究的目标是开发一种...

深度神经网络解决多体薛定谔方程中自旋对称性解的问题

深度学习框架用于多体薛定谔方程的自旋对称解研究:一种新方法的开创性成果 量子物理和量子化学领域中,多体电子体系的描述一直是一个重要但极具挑战性的课题。准确表征电子-电子强关联尤其对催化、光化学和超导性等领域具有深远意义。然而,传统的方法,如广泛使用的Kohn–Sham密度泛函理论(KS-DFT),在多参考体系中对静态关联的描述仍存在不足。这一不足导致了所谓的“对称性困境”(symmetry dilemma),即自旋对称破缺的解尽管是不物理的状态,却能获得较低的能量结果。此外,虽然波函数方法在捕获静态关联方面表现出色,但其计算复杂度较高,需要专家选择合适的活性空间,对普通应用存在显著障碍。因此,找到一种高效且准确的方法来解决多体薛定谔方程,同时保持正确的自旋对称性,这是科学家们长期以来期待解决...