GutBugDB:预测人类肠道微生物介导的生物和异生物分子生物转化的网络资源

近年来,人类肠道微生物群(Human Gut Microbiota, HGM)在药物和营养素代谢中的重要作用逐渐被认识到。肠道微生物群不仅影响口服药物的生物利用度,还通过其代谢酶参与药物和生物活性分子的生物转化(biotransformation),从而影响药物的药代动力学和药效学特性。然而,由于肠道微生物群的复杂性和个体间的差异性,确定特定微生物对药物和营养素代谢的具体贡献仍然是一个巨大的挑战。为了解决这一问题,研究人员开发了GutBugDB,这是一个开放获取的数字资源库,旨在预测人类肠道微生物群介导的生物和异生物质(xenobiotic)分子的生物转化。 论文来源 该研究由Usha Longwani、Ashok K. Sharma、Aditya S. Malwe、Shubham K. J...

EpicPred——基于注意力机制的多实例学习预测表位驱动的T细胞受体表型

T细胞受体(TCR)在适应性免疫系统中起着至关重要的作用,它们通过与特定抗原表位(epitope)结合来识别病原体。理解TCR与表位之间的相互作用对于揭示免疫反应的生物学机制以及开发T细胞介导的免疫疗法具有重要意义。然而,尽管TCR的CDR3区域在表位识别中的重要性已被广泛认可,但如何准确预测与特定疾病或表型相关的TCR-表位相互作用仍是一个挑战。为此,研究人员开发了EpicPred,一种基于注意力机制的多实例学习(Multiple Instance Learning, MIL)模型,旨在预测与癌症或COVID-19患者严重程度相关的TCR-表位相互作用。 论文来源 该论文由Jaemin Jeon、Suwan Yu、Sangam Lee、Sang Cheol Kim、Hye-Yeong Jo...

基于深度学习的酶筛选工具DeepES在孤儿酶基因识别中的应用

学术背景 随着测序技术的飞速发展,科学家们已经能够获得大量的蛋白质序列数据,其中包括许多酶序列。然而,尽管像京都基因与基因组百科全书(KEGG)和BRENDA这样的大型酶数据库已经建立,许多酶的序列信息仍然缺失。这些缺乏序列信息的酶被称为“孤儿酶”(orphan enzymes)。孤儿酶的存在严重阻碍了基于序列相似性的功能注释,导致在理解序列与酶促反应之间关系时存在巨大空白。 孤儿酶的问题不仅限于序列信息的缺失,还影响了我们对生物过程的理解。例如,人类肠道微生物群中的许多代谢过程,如短链脂肪酸(short-chain fatty acid, SCFA)的生产,与肠道炎症和癌症进展密切相关。然而,许多这些反应涉及孤儿酶,导致相关基因无法被识别。因此,开发一种不依赖于序列相似性的方法来预测酶活性...

基于自校正多标签学习的质粒宿主范围预测模型

质粒(plasmid)是细菌中独立于染色体DNA的小型环状双链DNA分子,它们通过水平基因转移(horizontal gene transfer)帮助宿主细菌获得抗生素抗性、金属抗性等有益特性。一些质粒能够在多种微生物中转移、复制或持续存在,这类质粒被称为广宿主范围质粒(broad-host-range plasmids, BHR plasmids)。准确预测BHR质粒的宿主范围对于理解质粒如何促进细菌进化、传播抗性基因以及开发重组载体具有重要意义。然而,目前缺乏提供BHR质粒详细宿主范围标签的数据库,这使得基于机器学习模型的宿主范围预测面临挑战。由于缺乏足够的标注样本,模型难以提取有效的特征表示,导致预测精度受限。 为了解决这一问题,香港城市大学电气工程系的Wei Zou、Yongxin ...

基于Transformer模型的DNA序列比对方法研究

学术背景 DNA序列比对是基因组学中的一项核心任务,旨在将短DNA片段(reads)定位到参考基因组上的最可能位置。传统方法通常分为两个步骤:首先对基因组进行索引,然后通过高效搜索定位reads的可能位置。然而,随着基因组数据的爆炸式增长,尤其是面对长达数十亿碱基的参考基因组时,传统的比对方法在计算效率和准确性上面临巨大挑战。近年来,Transformer模型在自然语言处理(NLP)领域的成功启发了研究人员将其应用于DNA序列分析。尽管已有研究表明Transformer模型在短DNA序列分类任务中表现优异,但序列比对任务需要在整个基因组范围内进行搜索,这对模型的全局搜索能力提出了更高要求。 为此,本研究提出了一种名为“embed-search-align”(ESA)的新框架,旨在通过Tran...

基于扭转流匹配的蛋白质侧链包装模型FlowPacker

蛋白质的三维结构由其氨基酸序列决定,而蛋白质的功能则高度依赖于其三维结构。蛋白质的侧链构象(side-chain conformations)在蛋白质折叠、蛋白质-蛋白质相互作用以及蛋白质设计(de novo protein design)中起着至关重要的作用。准确预测蛋白质侧链的构象是理解蛋白质折叠机制、设计新型蛋白质以及研究蛋白质相互作用的关键。然而,传统的基于物理的模型(physics-based modeling)依赖于经验评分函数(empirical scoring functions)、离散旋转库(discrete rotamer libraries)和马尔可夫链蒙特卡罗(MCMC)采样,这些方法往往由于搜索效率低下和评分函数的不准确性而难以达到理想的效果。 近年来,人工智能在蛋...

使用Transformer高效增强冷冻电镜密度图的研究:CryoTen

学术背景 冷冻电子显微镜(Cryo-EM)是解析大分子(如蛋白质)结构的重要实验技术。然而,Cryo-EM的有效性常常受到实验条件(如低对比度和构象异质性)导致的噪声和密度值缺失的制约。尽管现有的全局和局部图像锐化技术被广泛用于改善Cryo-EM密度图,但在高效提升其质量以构建更精确的蛋白质结构方面仍面临挑战。为了解决这一问题,研究人员开发了CryoTen,一种基于3D UNETR++风格Transformer的模型,旨在有效增强Cryo-EM密度图的质量。 论文来源 这篇论文由Joel Selvaraj、Liguo Wang和Jianlin Cheng共同撰写。Joel Selvaraj和Jianlin Cheng来自美国密苏里大学电气工程与计算机科学系,而Liguo Wang则来自布鲁克...

GCLink:一种用于基因调控网络推断的图对比链接预测框架

研究背景 基因调控网络(Gene Regulatory Networks, GRNs)是理解细胞内复杂生物过程的关键工具。它揭示了转录因子(Transcription Factors, TFs)与靶基因之间的相互作用,从而控制基因的转录过程,进而调控细胞行为。随着单细胞RNA测序(single-cell RNA-sequencing, scRNA-seq)技术的发展,研究者能够在单细胞分辨率下获取基因表达数据,这为GRNs的推断提供了前所未有的机会。然而,scRNA-seq数据的稀疏性和高变异性为GRNs的推断带来了巨大挑战。 现有的GRN推断方法主要分为两类:基于相关性或互信息的无监督学习方法,以及基于机器学习的监督学习方法。尽管这些方法在某些情况下表现出色,但它们往往依赖于成对基因的相关...

ImmunoTAR:整合性优先排序癌症免疫治疗的细胞表面靶点

癌症是全球范围内导致死亡的主要原因之一。尽管近年来免疫治疗取得了显著进展,如嵌合抗原受体T细胞(CAR-T)疗法和抗体药物偶联物(ADCs)的成功应用,但如何有效识别癌症特异性表面蛋白靶点仍然是当前研究的重大挑战。表面蛋白靶点的识别对于开发精准且低毒的免疫疗法至关重要。现有的技术,如RNA测序和蛋白质组学,虽然能够帮助研究人员分析这些靶点,但仍然缺乏系统化的方法来优先选择最合适的免疫治疗靶点。 为此,来自Children’s Hospital of Philadelphia、Drexel University、BC Cancer Research Institute等机构的科研团队开发了一种名为ImmunoTAR的计算工具,旨在通过整合多种公共数据库的数据,系统化地优先选择免疫治疗靶点。该工...

基于信息熵增强BERT和多向GRU的S-硫化位点预测方法

背景介绍 蛋白质翻译后修饰(Post-Translational Modifications, PTMs)是调节细胞活动的关键机制,包括基因转录、DNA修复和蛋白质相互作用等。其中,半胱氨酸(Cysteine)作为稀有氨基酸,通过其硫醇基团(Thiol Group)参与多种PTMs,尤其是在氧化还原平衡和信号传递过程中发挥着重要作用。S-硫酰化(S-Sulfhydration)是一种重要的PTM,与心血管疾病和神经系统疾病的发生和发展密切相关。然而,S-硫酰化的具体机制仍不明确,尤其是在位点识别方面存在较大的挑战。 传统的S-硫酰化位点识别方法,如生物素转换法(Biotin Conversion Method)和马来酰亚胺荧光法(Maleimide Fluorescence Method),...