基于预训练大语言模型的人类蛋白质必要性的全面预测与分析

基于预训练大型语言模型的人类蛋白质必要性预测与分析 学术背景 人类必需蛋白质(Human Essential Proteins, HEPs)对个体的生存和发育至关重要。然而,实验方法识别HEPs通常成本高、耗时长且劳动强度大。此外,现有的计算方法仅在细胞系水平上预测HEPs,但HEPs在活体人类、细胞系和动物模型之间差异显著。因此,开发一种能够在多个水平上全面预测HEPs的计算方法显得尤为重要。最近,大型语言模型(Large Language Models, LLMs)在自然语言处理领域取得了显著成功,蛋白质语言模型(Protein Language Models, PLMs)也因其能够在大规模蛋白质序列上进行预训练而崭露头角。然而,PLMs是否能够显著提高蛋白质必要性预测任务的效果仍然未知...

DeepBlock:通过深度学习进行毒性控制的理性配体生成方法

深度学习应用于目标蛋白配体生成的最新研究:DeepBlock框架的提出与验证 背景与研究问题 药物发现过程中,寻找能够结合特定蛋白的配体分子(ligand)一直是核心目标。然而,目前的虚拟筛选方法(virtual screening)通常受限于化合物库的规模和化学空间的广度,难以在大规模化学空间中发现符合目标特性的创新化合物。相比之下,去新药设计(de novo drug design)通过从头生成分子结构,为探索现有化合物库之外的化学空间提供了崭新的可能性。 近年来,深度生成模型(deep generative models)在化学分子生成领域取得了显著进展,包括自回归模型(autoregressive models)、变分自编码器(variational autoencoders, VA...

使用深度学习从无定形前驱体预测晶体的生成

从无定形前驱体预测晶体的出现:深度学习助力材料科学新突破 背景介绍 晶体从无定形物质中逐步生成的过程在自然界与实验室中具有重大意义。这一过程广泛存在于从地质到生物过程的各种现象中,并且在开发新材料的过程中占据核心地位。然而,无定形状态向晶体态的转化中,最初出现的常常是亚稳态(metastable state)晶体,而非热力学上的稳定态晶体。这种亚稳态形成的普遍规律可以通过”Ostwald法则”加以解释,该法则指出与无定形前驱体(amorphous precursor)具有相似局部结构特征的晶体将更容易优先成核。 无定形材料的晶化过程,尤其是其能量景观(energy landscape)的建模,一直以来是科学界的难点。传统的分子建模方法或从头计算(ab initio methods)由于计算量...

RD-Net:通过视神经头的结构特征预测青光眼的残差-密集网络

使用残差密集网络 (RD-Net) 进行基于视神经头结构特征的青光眼预测 背景与研究目的 青光眼是全球范围内导致失明的主要原因之一,被称为“视力的无声窃贼”。其主要特征是视神经(Optic Nerve Head, ONH)的进行性损伤,可能在患者察觉到其视力受损之前已经造成不可逆转的视觉丧失。据统计,青光眼是继白内障之后的第二大致盲原因。早期对青光眼的筛查与准确诊断,对管理疾病进展及维持患者的视觉功能至关重要。 临床上,青光眼的诊断主要基于以下结构和功能性测试:眼内压(Intraocular Pressure, IOP)测量、视神经头的结构评估,以及视野检测。然而,视野检测通常需要昂贵的设备,难以普及到基层医疗机构。因此,通过分析视神经头的结构特征,例如杯盘比(Cup-to-Disc Rat...

基于先验驱动的边缘特征增强网络提升小样本语义分割性能

基于先验驱动的边缘特征增强网络提升小样本语义分割性能

提升小样本语义分割的新方法——基于先验的边缘特征增强网络 在人工智能领域,语义分割(semantic segmentation)是计算机视觉中的一项核心技术,其目的是为图像中的每个像素赋予语义类别标签。然而,传统的语义分割方法依赖大量的标注数据进行训练,这在实际应用中局限于标注样本数据不足的场景。例如,医学影像分析和自动驾驶中,需要对少数数据类别进行分割,获取精确的分割结果。在此背景下,小样本语义分割(Few-Shot Semantic Segmentation, 简称FSS)作为一种新兴技术得到了研究者的广泛关注,旨在在少量标注样本的条件下实现高质量的语义分割。 然而,与普通语义分割模型相比,小样本语义分割在目标边界预测的准确性上仍然表现不足。原因在于,当样本极其有限时,模型从查询(que...

生成式人工智能用于骨扫描图像生成并改进小数据集环境中的深度学习模型泛化能力

生成性人工智能在核医学的突破性应用:探讨合成骨显像图像的潜力及其在深度学习中的应用 背景与研究问题 近年来,人工智能(Artificial Intelligence, AI)的快速发展,引领了医学影像分析的革新。例如,深度神经网络(Deep Neural Network)在疾病诊断、解剖结构分割、患者预后预测及治疗反应评估等领域展现了巨大潜力。然而,这些技术的广泛应用通常依赖于规模庞大且精确标注的数据集。然而,在医学领域,获取如此大规模的标注数据集既昂贵又耗时,尤其是在涉及患者隐私保护时数据共享受到严格限制。数据的有限性导致深度学习模型在真实场景中的表现不理想,难以泛化。这种困局在需要跨多中心汇总数据的分布式研究中表现尤为明显。 另一方面,生成性人工智能(Generative AI)的崛起为...

基于PSMA PET/CT的多模态深度学习模型用于预测前列腺癌患者盆腔淋巴结转移的精准性

深入解析基于PSMA PET/CT的多模态深度学习模型以预测前列腺癌患者淋巴结转移 背景介绍 前列腺癌(Prostate Cancer, PCA)是男性中最常见的恶性肿瘤之一,也是导致癌症相关死亡的主要原因之一。在临床局限性前列腺癌患者中,扩展盆腔淋巴结清扫(Extended Pelvic Lymph Node Dissection, EPLND)通常被视为淋巴结分期的最准确方式。然而,这种手术操作范围广,不仅会增加术中和术后并发症的风险,还可能延长手术时间和提高医疗成本。尽管EPLND在淋巴结转移(Lymph Node Invasion, LNI)评估中的作用备受争议,但仍有许多患者因其预测LNI的高效性而需接受该操作。 当前,临床上主要通过预测模型(如Memorial Sloan Ket...

EvoAI实现蛋白质序列空间的极端压缩与重建

蛋白序列空间的极端压缩与重建:EvoAI的突破性研究 背景介绍 蛋白质的设计和优化已经成为生物技术、医学和合成生物学领域中的核心挑战之一。蛋白质的功能由其序列和结构决定,但这一功能性的序列空间(sequence space)非常复杂且高维,包含极大量的可能性。探索这一领域的关键性问题在于如何有效地解析和压缩这片几乎无穷大的序列空间,进而识别与功能密切相关的特征。以往的方法包括直接进化(directed evolution)、深度突变扫描(deep mutational scanning, DMS)、位点饱和突变(site-saturation mutagenesis)等实验策略,虽为揭示基因型与表型的关系提供了重要的见解,但在序列空间覆盖范围、准确性和高维分析能力方面受到显著限制。而计算方法...

使用自监督深度学习解决冷冻电镜中的偏好取向问题

克服单粒子冷冻电镜中的优选取向问题:深度学习的创新解法 背景介绍 近年来,单粒子冷冻电子显微镜(Single-Particle Cryo-EM)技术因其能够解析生物大分子在接近天然状态下的原子分辨率结构,已成为结构生物学领域的核心技术。然而,在实际应用中,研究者一直面临一个棘手的技术瓶颈,即“优选取向”(Preferred Orientation)问题。这一问题主要由于生物分子在冷冻电镜网格上分布不均,导致在某些方向上的数据采样不足。这种取向偏差通常是由样品制备过程中分子与空气-水界面(Air-Water Interface, AWI)或支撑膜-水界面的相互作用引起的。 优选取向问题在三维重构中显得尤为突出,因为它带来的各向异性(Anisotropy)会使三维结构受损,甚至失真,具体表现为二...

多尺度足迹揭示顺式调控元件在细胞分化和衰老过程的作用

多尺度足迹揭示顺式调控元件在细胞分化和衰老过程的作用 背景介绍 基因表达的调控是细胞命运和疾病发生的关键机制之一,而顺式调控元件(cis-regulatory elements, CREs)在这一过程中扮演了重要角色。CREs通过结合多种效应蛋白(如转录因子和核小体)来动态调控基因的表达。然而,现有的研究方法在测量这些效应蛋白在基因组范围内的结合动态时存在局限性,尤其是在单细胞水平上。这导致我们难以全面理解CREs的结构如何与其功能相关联,尤其是在细胞分化和衰老过程中。 为了解决这一问题,来自Broad Institute of MIT and Harvard、Harvard University等机构的研究团队开发了一种名为PRINT的计算方法,能够从染色质可及性数据中识别DNA-蛋白质相...