基于尺度空间显著性的Hi-C数据分析方法

在基因组学领域,理解基因组的空间组织对于揭示基因调控机制至关重要。Hi-C技术作为一种全基因组染色体构象捕获技术,能够揭示基因组的三维结构,特别是染色质环(chromatin loops)在基因调控中的关键作用。然而,现有的Hi-C数据分析方法通常只能识别共享的染色质环,而难以检测细胞类型特异性的染色质环。这限制了我们对不同细胞类型中基因调控机制的理解。为了解决这一问题,Rui Liu等人提出了一种新的算法——SSSHiC(Significance in Scale Space for Hi-C Data),旨在通过尺度空间分析来识别细胞类型特异性的染色质环,从而更好地理解基因调控的细胞特异性。 论文来源 这篇论文由Rui Liu、Zhengwu Zhang、Hyejung Won和J. S...

MMNC——一种多模态可解释的非编码RNA分类方法

非编码RNA(ncRNA)在细胞过程和疾病发展中扮演着关键角色。尽管基因组测序项目揭示了大量非编码基因的存在,但ncRNA的功能和分类仍然是一个复杂且具有挑战性的问题。ncRNA的多样性、复杂性和功能性使其成为生物医学研究的重要对象,尤其是在生物标志物和治疗靶点的发现中。然而,现有的ncRNA分类工具大多仅依赖于单一或两种数据类型(如序列或二级结构),忽略了其他可能提供重要信息的数据源。此外,现有方法通常缺乏可解释性,难以揭示不同ncRNA类别的特征。 为了解决这些问题,来自Université Paris-Saclay和Institut Curie的研究团队提出了一种名为MMNC(Multi-Modal Interpretable Representation for Non-Coding...

基于多密钥同态加密的基因组计算隐私保护框架

基因组分析的隐私保护框架:基于多密钥同态加密的研究 学术背景 随着基因组测序成本的降低,基因组数据的广泛可用性为个性化医疗(也称为基因组医学)开辟了新的可能性。然而,基因组数据包含大量敏感信息,如疾病易感性、祖先信息和身体特征,这些信息的隐私问题成为了医学研究和数据共享的重大障碍。尽管研究人员已经提出了多种隐私保护技术,但现有的基于密码学的方法在互操作性、可扩展性、隐私保护程度以及多方分析支持方面仍存在不足。这些局限性限制了基因组数据的潜力,阻碍了其在医学研究中的应用。因此,开发一种既能保护隐私又能支持多方基因组数据处理的加密技术成为了迫切需求。 论文来源 这篇论文由Mina Namazi、Mohammadali Farahpoor、Erman Ayday和Fernando Pérez-Go...

EpicPred——基于注意力机制的多实例学习预测表位驱动的T细胞受体表型

T细胞受体(TCR)在适应性免疫系统中起着至关重要的作用,它们通过与特定抗原表位(epitope)结合来识别病原体。理解TCR与表位之间的相互作用对于揭示免疫反应的生物学机制以及开发T细胞介导的免疫疗法具有重要意义。然而,尽管TCR的CDR3区域在表位识别中的重要性已被广泛认可,但如何准确预测与特定疾病或表型相关的TCR-表位相互作用仍是一个挑战。为此,研究人员开发了EpicPred,一种基于注意力机制的多实例学习(Multiple Instance Learning, MIL)模型,旨在预测与癌症或COVID-19患者严重程度相关的TCR-表位相互作用。 论文来源 该论文由Jaemin Jeon、Suwan Yu、Sangam Lee、Sang Cheol Kim、Hye-Yeong Jo...

基于深度学习的酶筛选工具DeepES在孤儿酶基因识别中的应用

学术背景 随着测序技术的飞速发展,科学家们已经能够获得大量的蛋白质序列数据,其中包括许多酶序列。然而,尽管像京都基因与基因组百科全书(KEGG)和BRENDA这样的大型酶数据库已经建立,许多酶的序列信息仍然缺失。这些缺乏序列信息的酶被称为“孤儿酶”(orphan enzymes)。孤儿酶的存在严重阻碍了基于序列相似性的功能注释,导致在理解序列与酶促反应之间关系时存在巨大空白。 孤儿酶的问题不仅限于序列信息的缺失,还影响了我们对生物过程的理解。例如,人类肠道微生物群中的许多代谢过程,如短链脂肪酸(short-chain fatty acid, SCFA)的生产,与肠道炎症和癌症进展密切相关。然而,许多这些反应涉及孤儿酶,导致相关基因无法被识别。因此,开发一种不依赖于序列相似性的方法来预测酶活性...

基于自校正多标签学习的质粒宿主范围预测模型

质粒(plasmid)是细菌中独立于染色体DNA的小型环状双链DNA分子,它们通过水平基因转移(horizontal gene transfer)帮助宿主细菌获得抗生素抗性、金属抗性等有益特性。一些质粒能够在多种微生物中转移、复制或持续存在,这类质粒被称为广宿主范围质粒(broad-host-range plasmids, BHR plasmids)。准确预测BHR质粒的宿主范围对于理解质粒如何促进细菌进化、传播抗性基因以及开发重组载体具有重要意义。然而,目前缺乏提供BHR质粒详细宿主范围标签的数据库,这使得基于机器学习模型的宿主范围预测面临挑战。由于缺乏足够的标注样本,模型难以提取有效的特征表示,导致预测精度受限。 为了解决这一问题,香港城市大学电气工程系的Wei Zou、Yongxin ...

基于Transformer模型的DNA序列比对方法研究

学术背景 DNA序列比对是基因组学中的一项核心任务,旨在将短DNA片段(reads)定位到参考基因组上的最可能位置。传统方法通常分为两个步骤:首先对基因组进行索引,然后通过高效搜索定位reads的可能位置。然而,随着基因组数据的爆炸式增长,尤其是面对长达数十亿碱基的参考基因组时,传统的比对方法在计算效率和准确性上面临巨大挑战。近年来,Transformer模型在自然语言处理(NLP)领域的成功启发了研究人员将其应用于DNA序列分析。尽管已有研究表明Transformer模型在短DNA序列分类任务中表现优异,但序列比对任务需要在整个基因组范围内进行搜索,这对模型的全局搜索能力提出了更高要求。 为此,本研究提出了一种名为“embed-search-align”(ESA)的新框架,旨在通过Tran...

单细胞拷贝数变异与事件历史重建的SCICONE模型

肿瘤的发展过程中,基因组拷贝数变异(Copy Number Alterations, CNAs)是驱动肿瘤异质性和进化的重要因素。理解这些变异对于开发个性化的癌症诊断和治疗方法至关重要。单细胞测序技术提供了最高分辨率的拷贝数分析,能够深入到单个细胞水平。然而,低读深(low read-depth)的全基因组测序数据给拷贝数变异的检测带来了巨大的统计和计算挑战。现有的计算方法大多忽略了细胞之间的进化关系,导致检测结果不够准确。因此,开发一种能够结合细胞进化历史的拷贝数检测方法成为当前研究的迫切需求。 论文来源 本论文由ETH Zurich(瑞士联邦理工学院)和SIB Swiss Institute of Bioinformatics(瑞士生物信息学研究所)的研究团队共同完成,主要作者包括Jac...

基于扭转流匹配的蛋白质侧链包装模型FlowPacker

蛋白质的三维结构由其氨基酸序列决定,而蛋白质的功能则高度依赖于其三维结构。蛋白质的侧链构象(side-chain conformations)在蛋白质折叠、蛋白质-蛋白质相互作用以及蛋白质设计(de novo protein design)中起着至关重要的作用。准确预测蛋白质侧链的构象是理解蛋白质折叠机制、设计新型蛋白质以及研究蛋白质相互作用的关键。然而,传统的基于物理的模型(physics-based modeling)依赖于经验评分函数(empirical scoring functions)、离散旋转库(discrete rotamer libraries)和马尔可夫链蒙特卡罗(MCMC)采样,这些方法往往由于搜索效率低下和评分函数的不准确性而难以达到理想的效果。 近年来,人工智能在蛋...

使用Transformer高效增强冷冻电镜密度图的研究:CryoTen

学术背景 冷冻电子显微镜(Cryo-EM)是解析大分子(如蛋白质)结构的重要实验技术。然而,Cryo-EM的有效性常常受到实验条件(如低对比度和构象异质性)导致的噪声和密度值缺失的制约。尽管现有的全局和局部图像锐化技术被广泛用于改善Cryo-EM密度图,但在高效提升其质量以构建更精确的蛋白质结构方面仍面临挑战。为了解决这一问题,研究人员开发了CryoTen,一种基于3D UNETR++风格Transformer的模型,旨在有效增强Cryo-EM密度图的质量。 论文来源 这篇论文由Joel Selvaraj、Liguo Wang和Jianlin Cheng共同撰写。Joel Selvaraj和Jianlin Cheng来自美国密苏里大学电气工程与计算机科学系,而Liguo Wang则来自布鲁克...