基于多密钥同态加密的基因组计算隐私保护框架

基因组分析的隐私保护框架:基于多密钥同态加密的研究 学术背景 随着基因组测序成本的降低,基因组数据的广泛可用性为个性化医疗(也称为基因组医学)开辟了新的可能性。然而,基因组数据包含大量敏感信息,如疾病易感性、祖先信息和身体特征,这些信息的隐私问题成为了医学研究和数据共享的重大障碍。尽管研究人员已经提出了多种隐私保护技术,但现有的基于密码学的方法在互操作性、可扩展性、隐私保护程度以及多方分析支持方面仍存在不足。这些局限性限制了基因组数据的潜力,阻碍了其在医学研究中的应用。因此,开发一种既能保护隐私又能支持多方基因组数据处理的加密技术成为了迫切需求。 论文来源 这篇论文由Mina Namazi、Mohammadali Farahpoor、Erman Ayday和Fernando Pérez-Go...

EpicPred——基于注意力机制的多实例学习预测表位驱动的T细胞受体表型

T细胞受体(TCR)在适应性免疫系统中起着至关重要的作用,它们通过与特定抗原表位(epitope)结合来识别病原体。理解TCR与表位之间的相互作用对于揭示免疫反应的生物学机制以及开发T细胞介导的免疫疗法具有重要意义。然而,尽管TCR的CDR3区域在表位识别中的重要性已被广泛认可,但如何准确预测与特定疾病或表型相关的TCR-表位相互作用仍是一个挑战。为此,研究人员开发了EpicPred,一种基于注意力机制的多实例学习(Multiple Instance Learning, MIL)模型,旨在预测与癌症或COVID-19患者严重程度相关的TCR-表位相互作用。 论文来源 该论文由Jaemin Jeon、Suwan Yu、Sangam Lee、Sang Cheol Kim、Hye-Yeong Jo...

基于深度学习的酶筛选工具DeepES在孤儿酶基因识别中的应用

学术背景 随着测序技术的飞速发展,科学家们已经能够获得大量的蛋白质序列数据,其中包括许多酶序列。然而,尽管像京都基因与基因组百科全书(KEGG)和BRENDA这样的大型酶数据库已经建立,许多酶的序列信息仍然缺失。这些缺乏序列信息的酶被称为“孤儿酶”(orphan enzymes)。孤儿酶的存在严重阻碍了基于序列相似性的功能注释,导致在理解序列与酶促反应之间关系时存在巨大空白。 孤儿酶的问题不仅限于序列信息的缺失,还影响了我们对生物过程的理解。例如,人类肠道微生物群中的许多代谢过程,如短链脂肪酸(short-chain fatty acid, SCFA)的生产,与肠道炎症和癌症进展密切相关。然而,许多这些反应涉及孤儿酶,导致相关基因无法被识别。因此,开发一种不依赖于序列相似性的方法来预测酶活性...

基于自校正多标签学习的质粒宿主范围预测模型

质粒(plasmid)是细菌中独立于染色体DNA的小型环状双链DNA分子,它们通过水平基因转移(horizontal gene transfer)帮助宿主细菌获得抗生素抗性、金属抗性等有益特性。一些质粒能够在多种微生物中转移、复制或持续存在,这类质粒被称为广宿主范围质粒(broad-host-range plasmids, BHR plasmids)。准确预测BHR质粒的宿主范围对于理解质粒如何促进细菌进化、传播抗性基因以及开发重组载体具有重要意义。然而,目前缺乏提供BHR质粒详细宿主范围标签的数据库,这使得基于机器学习模型的宿主范围预测面临挑战。由于缺乏足够的标注样本,模型难以提取有效的特征表示,导致预测精度受限。 为了解决这一问题,香港城市大学电气工程系的Wei Zou、Yongxin ...

基于Transformer模型的DNA序列比对方法研究

学术背景 DNA序列比对是基因组学中的一项核心任务,旨在将短DNA片段(reads)定位到参考基因组上的最可能位置。传统方法通常分为两个步骤:首先对基因组进行索引,然后通过高效搜索定位reads的可能位置。然而,随着基因组数据的爆炸式增长,尤其是面对长达数十亿碱基的参考基因组时,传统的比对方法在计算效率和准确性上面临巨大挑战。近年来,Transformer模型在自然语言处理(NLP)领域的成功启发了研究人员将其应用于DNA序列分析。尽管已有研究表明Transformer模型在短DNA序列分类任务中表现优异,但序列比对任务需要在整个基因组范围内进行搜索,这对模型的全局搜索能力提出了更高要求。 为此,本研究提出了一种名为“embed-search-align”(ESA)的新框架,旨在通过Tran...

单细胞拷贝数变异与事件历史重建的SCICONE模型

肿瘤的发展过程中,基因组拷贝数变异(Copy Number Alterations, CNAs)是驱动肿瘤异质性和进化的重要因素。理解这些变异对于开发个性化的癌症诊断和治疗方法至关重要。单细胞测序技术提供了最高分辨率的拷贝数分析,能够深入到单个细胞水平。然而,低读深(low read-depth)的全基因组测序数据给拷贝数变异的检测带来了巨大的统计和计算挑战。现有的计算方法大多忽略了细胞之间的进化关系,导致检测结果不够准确。因此,开发一种能够结合细胞进化历史的拷贝数检测方法成为当前研究的迫切需求。 论文来源 本论文由ETH Zurich(瑞士联邦理工学院)和SIB Swiss Institute of Bioinformatics(瑞士生物信息学研究所)的研究团队共同完成,主要作者包括Jac...

基于扭转流匹配的蛋白质侧链包装模型FlowPacker

蛋白质的三维结构由其氨基酸序列决定,而蛋白质的功能则高度依赖于其三维结构。蛋白质的侧链构象(side-chain conformations)在蛋白质折叠、蛋白质-蛋白质相互作用以及蛋白质设计(de novo protein design)中起着至关重要的作用。准确预测蛋白质侧链的构象是理解蛋白质折叠机制、设计新型蛋白质以及研究蛋白质相互作用的关键。然而,传统的基于物理的模型(physics-based modeling)依赖于经验评分函数(empirical scoring functions)、离散旋转库(discrete rotamer libraries)和马尔可夫链蒙特卡罗(MCMC)采样,这些方法往往由于搜索效率低下和评分函数的不准确性而难以达到理想的效果。 近年来,人工智能在蛋...

使用Transformer高效增强冷冻电镜密度图的研究:CryoTen

学术背景 冷冻电子显微镜(Cryo-EM)是解析大分子(如蛋白质)结构的重要实验技术。然而,Cryo-EM的有效性常常受到实验条件(如低对比度和构象异质性)导致的噪声和密度值缺失的制约。尽管现有的全局和局部图像锐化技术被广泛用于改善Cryo-EM密度图,但在高效提升其质量以构建更精确的蛋白质结构方面仍面临挑战。为了解决这一问题,研究人员开发了CryoTen,一种基于3D UNETR++风格Transformer的模型,旨在有效增强Cryo-EM密度图的质量。 论文来源 这篇论文由Joel Selvaraj、Liguo Wang和Jianlin Cheng共同撰写。Joel Selvaraj和Jianlin Cheng来自美国密苏里大学电气工程与计算机科学系,而Liguo Wang则来自布鲁克...

GCLink:一种用于基因调控网络推断的图对比链接预测框架

研究背景 基因调控网络(Gene Regulatory Networks, GRNs)是理解细胞内复杂生物过程的关键工具。它揭示了转录因子(Transcription Factors, TFs)与靶基因之间的相互作用,从而控制基因的转录过程,进而调控细胞行为。随着单细胞RNA测序(single-cell RNA-sequencing, scRNA-seq)技术的发展,研究者能够在单细胞分辨率下获取基因表达数据,这为GRNs的推断提供了前所未有的机会。然而,scRNA-seq数据的稀疏性和高变异性为GRNs的推断带来了巨大挑战。 现有的GRN推断方法主要分为两类:基于相关性或互信息的无监督学习方法,以及基于机器学习的监督学习方法。尽管这些方法在某些情况下表现出色,但它们往往依赖于成对基因的相关...

基于共享肽段的蛋白质和翻译后修饰的相对定量

在蛋白质组学研究中,质谱技术(Mass Spectrometry, MS)被广泛用于分析蛋白质的丰度和结构变化。然而,蛋白质的定量分析面临一个关键挑战:许多蛋白质共享相同的肽段(shared peptides),即这些肽段在多个蛋白质的序列中出现。传统的方法通常仅依赖于唯一肽段(unique peptides)进行蛋白质定量,忽略了共享肽段的信息,这可能导致定量结果的偏差或不准确。特别是在研究蛋白质异构体(protein isoforms)或翻译后修饰(post-translational modifications, PTMs)时,共享肽段的存在使得定量分析更加复杂。 为了解决这一问题,研究者们提出了一种新的统计方法,旨在利用共享肽段的定量信息,更准确地估计蛋白质的丰度和PTMs的位点占有...