多模态学习用于基因型-表型动态映射

多模态学习揭示基因型-表型动态关系 背景介绍 基因型与表型之间的复杂关系一直是生物学领域的核心问题之一。基因型(genotype)指生物体的遗传信息,而表型(phenotype)则是这些遗传信息在特定环境下的表现。尽管早在1909年,Wilhelm Johannsen就提出了这两个术语,并试图量化它们之间的关系,但一个多世纪以来,我们仍然无法精确地描述基因型如何通过复杂的基因表达模式塑造表型。近年来,单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)等技术的发展使得我们能够在细胞分辨率下观察基因表达的复杂动态,然而这些技术仍然无法全面映射基因型组合如何导致表型的产生。 当前的研究方法,如正向遗传学(forward genetics)和反向遗传学(r...

DysPred框架:利用药物警戒数据预测检查点抑制剂免疫疗法的群体毒性特征

免疫检查点抑制剂毒性的预测与监控:DysPred深度学习框架的突破性应用 学术背景 免疫检查点抑制剂(immune checkpoint inhibitors, ICIs)是近年来癌症免疫治疗领域的重大突破,通过抑制免疫检查点信号通路,增强机体的抗肿瘤免疫反应。然而,ICIs在治疗过程中可能引发广泛的免疫相关不良反应(immune-related adverse events, irAEs),这些不良反应不仅影响患者的生活质量,甚至可能导致器官功能受损或死亡。由于irAEs在临床环境、肿瘤类型、组织特异性及患者人口统计学特征中的高度异质性,亟需一种稳健且可扩展的方法来预测和管理这些不良反应。 尽管已有研究通过临床试验和传统的药物不良反应数据集(如SIDER和OFFSIDES)对irAEs进行...

基于内存计算的深度贝叶斯主动学习研究

随着人工智能(AI)技术的快速发展,深度学习在复杂任务中取得了显著进展。然而,深度学习的成功在很大程度上依赖于大量标注数据,而数据的标注过程不仅耗时、劳动密集,还需要专业的领域知识,成本高昂。特别是在一些专业领域中,如机器人技能学习、催化剂发现、药物发现和蛋白质生产优化等,获取标注数据的难度和成本尤其突出。为了解决这一问题,深度贝叶斯主动学习(Deep Bayesian Active Learning, DBAL)应运而生。DBAL通过主动选择最有信息量的数据进行标注,显著提高了标注效率,从而在有限标注数据的情况下实现高质量的学习。 然而,DBAL的实现面临着一个重要的技术挑战:它需要处理大量的随机变量和高带宽的数据传输,这对传统的确定性硬件提出了极高的要求。传统的互补金属氧化物半导体(Co...

形态优化与形态变换问题的可编程环境

可编程形状优化与形变问题的研究:Morpho环境的开发与应用 学术背景 软材料(soft materials)在科学和工程领域中扮演着至关重要的角色,特别是在软体机器人、结构流体、生物材料与颗粒介质等领域。这些材料在机械、电磁或化学刺激下会发生显著的形状变化。理解并预测这些材料的形状变化,对于优化设计及其背后的物理机理具有重要意义。然而,形状优化问题通常非常复杂,现有的模拟工具要么功能有限,要么不够通用,导致研究人员在处理这类问题时面临诸多挑战。 为了解决这一难题,研究人员开发了一个开源的、可编程的优化环境——Morpho,旨在为形状优化问题提供一个通用且易于使用的工具。Morpho能够处理多种软材料物理问题,如膨胀水凝胶(swelling hydrogels)、复杂流体中的非球形液滴、肥皂...

通过多任务学习接近耦合簇精度的分子电子结构

机器学习助力量子化学:逼近耦合簇精度的分子电子结构预测 学术背景 在物理学、化学和材料科学领域,计算方法是揭示各种物理现象背后机制和加速材料设计的关键工具。然而,量子化学计算(尤其是电子结构计算)通常是计算瓶颈,限制了计算速度和可扩展性。尽管近年来机器学习方法在加速分子动力学模拟和提高精度方面取得显著成功,但现有的机器学习模型大多基于密度泛函理论(DFT)数据库作为训练数据的“真实值”,其预测精度无法超越DFT本身。DFT作为一种平均场理论,其计算通常引入的系统误差比化学精度(1 kcal/mol)大几倍,这限制了基于DFT数据集训练的机器学习模型的整体精度。 相比之下,耦合簇方法(CCSD(T))被认为是量子化学的“金标准”,能够提供各种分子性质的高精度预测。然而,CCSD(T)的计算成本...

STST:动态视觉刺激生成中的时空风格转移算法

关于动态视觉刺激生成的时空风格转移算法的研究报告 学术背景 视觉信息的编码与处理一直是神经科学和视觉科学领域的重要研究方向。随着深度学习技术的快速发展,研究人工视觉系统与生物视觉系统之间的相似性成为热点。然而,视觉研究中生成适当的动态视觉刺激以测试特定假设的方法相对匮乏。现有的静态图像生成方法虽然已有较大进展,但在处理动态视觉刺激时,仍存在灵活性不足、生成结果偏离自然视觉环境统计特性等问题。为此,研究者们开发了一种名为“时空风格转移”(Spatiotemporal Style Transfer, STST)的算法,旨在生成能够匹配自然视频的低级时空特征,同时去除高级语义信息的动态视觉刺激,为研究物体识别提供了有力的工具。 此外,深度学习模型在视觉任务中的表现与生物视觉系统的比较也需要大量的可...

用于加权网络随机化的模拟退火算法

基于模拟退火算法的加权网络随机化研究 背景介绍 在神经科学领域,连接组学(connectomics) 是研究大脑神经网络结构和功能的重要分支。随着现代成像技术的发展,研究人员能够获取到大量的生物意义丰富的边权重(edge weights),这些权重信息对于理解大脑网络的组织和功能至关重要。然而,尽管加权网络分析在连接组学中日益普及,现有的网络随机化模型大多仅保留二元节点度(binary node degree),而忽略了边权重的重要性。这导致在评估网络特征的显著性时,可能无法准确反映出权重信息的影响。 为了解决这一问题,来自McGill University、University of Minnesota等机构的研究团队提出了一种基于模拟退火算法(simulated annealing al...

DiMOn:学习偏微分方程几何依赖解算子的可扩展框架

引言 近年来,利用数值方法求解偏微分方程(Partial Differential Equations, PDEs)已在工程和医学等广泛学科中扮演了重要角色。这些方法在拓扑和设计优化以及临床预测中的应用已显示出显著成效。然而,由于在多种几何体上进行多次问题求解所需的计算成本非常高,导致这些方法在很多场景下变得无法负担。因此,开发能够在不同几何条件下提高PDE求解效率的方法,成为了近年科学机器学习领域的一个研究热点。 论文背景与来源 《A Scalable Framework for Learning the Geometry-Dependent Solution Operators of Partial Differential Equations》这篇文章由Minglang Yin、Nic...

基于预训练大语言模型的人类蛋白质必要性的全面预测与分析

基于预训练大型语言模型的人类蛋白质必要性预测与分析 学术背景 人类必需蛋白质(Human Essential Proteins, HEPs)对个体的生存和发育至关重要。然而,实验方法识别HEPs通常成本高、耗时长且劳动强度大。此外,现有的计算方法仅在细胞系水平上预测HEPs,但HEPs在活体人类、细胞系和动物模型之间差异显著。因此,开发一种能够在多个水平上全面预测HEPs的计算方法显得尤为重要。最近,大型语言模型(Large Language Models, LLMs)在自然语言处理领域取得了显著成功,蛋白质语言模型(Protein Language Models, PLMs)也因其能够在大规模蛋白质序列上进行预训练而崭露头角。然而,PLMs是否能够显著提高蛋白质必要性预测任务的效果仍然未知...

DeepBlock:通过深度学习进行毒性控制的理性配体生成方法

深度学习应用于目标蛋白配体生成的最新研究:DeepBlock框架的提出与验证 背景与研究问题 药物发现过程中,寻找能够结合特定蛋白的配体分子(ligand)一直是核心目标。然而,目前的虚拟筛选方法(virtual screening)通常受限于化合物库的规模和化学空间的广度,难以在大规模化学空间中发现符合目标特性的创新化合物。相比之下,去新药设计(de novo drug design)通过从头生成分子结构,为探索现有化合物库之外的化学空间提供了崭新的可能性。 近年来,深度生成模型(deep generative models)在化学分子生成领域取得了显著进展,包括自回归模型(autoregressive models)、变分自编码器(variational autoencoders, VA...