MMNC——一种多模态可解释的非编码RNA分类方法

非编码RNA(ncRNA)在细胞过程和疾病发展中扮演着关键角色。尽管基因组测序项目揭示了大量非编码基因的存在,但ncRNA的功能和分类仍然是一个复杂且具有挑战性的问题。ncRNA的多样性、复杂性和功能性使其成为生物医学研究的重要对象,尤其是在生物标志物和治疗靶点的发现中。然而,现有的ncRNA分类工具大多仅依赖于单一或两种数据类型(如序列或二级结构),忽略了其他可能提供重要信息的数据源。此外,现有方法通常缺乏可解释性,难以揭示不同ncRNA类别的特征。 为了解决这些问题,来自Université Paris-Saclay和Institut Curie的研究团队提出了一种名为MMNC(Multi-Modal Interpretable Representation for Non-Coding...

基于Transformer模型的DNA序列比对方法研究

学术背景 DNA序列比对是基因组学中的一项核心任务,旨在将短DNA片段(reads)定位到参考基因组上的最可能位置。传统方法通常分为两个步骤:首先对基因组进行索引,然后通过高效搜索定位reads的可能位置。然而,随着基因组数据的爆炸式增长,尤其是面对长达数十亿碱基的参考基因组时,传统的比对方法在计算效率和准确性上面临巨大挑战。近年来,Transformer模型在自然语言处理(NLP)领域的成功启发了研究人员将其应用于DNA序列分析。尽管已有研究表明Transformer模型在短DNA序列分类任务中表现优异,但序列比对任务需要在整个基因组范围内进行搜索,这对模型的全局搜索能力提出了更高要求。 为此,本研究提出了一种名为“embed-search-align”(ESA)的新框架,旨在通过Tran...

使用Transformer高效增强冷冻电镜密度图的研究:CryoTen

学术背景 冷冻电子显微镜(Cryo-EM)是解析大分子(如蛋白质)结构的重要实验技术。然而,Cryo-EM的有效性常常受到实验条件(如低对比度和构象异质性)导致的噪声和密度值缺失的制约。尽管现有的全局和局部图像锐化技术被广泛用于改善Cryo-EM密度图,但在高效提升其质量以构建更精确的蛋白质结构方面仍面临挑战。为了解决这一问题,研究人员开发了CryoTen,一种基于3D UNETR++风格Transformer的模型,旨在有效增强Cryo-EM密度图的质量。 论文来源 这篇论文由Joel Selvaraj、Liguo Wang和Jianlin Cheng共同撰写。Joel Selvaraj和Jianlin Cheng来自美国密苏里大学电气工程与计算机科学系,而Liguo Wang则来自布鲁克...

基于共享肽段的蛋白质和翻译后修饰的相对定量

在蛋白质组学研究中,质谱技术(Mass Spectrometry, MS)被广泛用于分析蛋白质的丰度和结构变化。然而,蛋白质的定量分析面临一个关键挑战:许多蛋白质共享相同的肽段(shared peptides),即这些肽段在多个蛋白质的序列中出现。传统的方法通常仅依赖于唯一肽段(unique peptides)进行蛋白质定量,忽略了共享肽段的信息,这可能导致定量结果的偏差或不准确。特别是在研究蛋白质异构体(protein isoforms)或翻译后修饰(post-translational modifications, PTMs)时,共享肽段的存在使得定量分析更加复杂。 为了解决这一问题,研究者们提出了一种新的统计方法,旨在利用共享肽段的定量信息,更准确地估计蛋白质的丰度和PTMs的位点占有...

基于信息熵增强BERT和多向GRU的S-硫化位点预测方法

背景介绍 蛋白质翻译后修饰(Post-Translational Modifications, PTMs)是调节细胞活动的关键机制,包括基因转录、DNA修复和蛋白质相互作用等。其中,半胱氨酸(Cysteine)作为稀有氨基酸,通过其硫醇基团(Thiol Group)参与多种PTMs,尤其是在氧化还原平衡和信号传递过程中发挥着重要作用。S-硫酰化(S-Sulfhydration)是一种重要的PTM,与心血管疾病和神经系统疾病的发生和发展密切相关。然而,S-硫酰化的具体机制仍不明确,尤其是在位点识别方面存在较大的挑战。 传统的S-硫酰化位点识别方法,如生物素转换法(Biotin Conversion Method)和马来酰亚胺荧光法(Maleimide Fluorescence Method),...

单细胞转录组学中的轨迹对齐:Tragedy方法的创新与应用

单细胞转录组测序(single-cell RNA sequencing, scRNA-seq)技术的出现,为研究细胞发育和分化过程中的基因表达动态提供了前所未有的分辨率。然而,由于生物过程的复杂性,不同条件下的细胞发育轨迹往往是不对称的,这给数据的整合和比较带来了挑战。现有的方法通常依赖于将不同条件下的样本整合后再进行聚类分析或推断共享轨迹,但这些方法在处理不对称轨迹时往往效果不佳,可能会掩盖关键的差异表达基因(differentially expressed genes, DEGs)。 为了解决这一问题,研究人员开发了一种新的方法——Trajectory Alignment of Gene Expression Dynamics (Tragedy)。Tragedy方法能够在不进行数据集整合...

基于共享单元和多通道注意力机制的circRNA与疾病关联预测

背景介绍 近年来,环状RNA(circRNA)作为一种新型的非编码RNA分子,在疾病的发生、发展和治疗中扮演着重要角色。circRNA具有独特的环状结构,不易被核酸酶降解,因此被认为是潜在的生物标志物和治疗靶点。然而,通过实验方法研究circRNA与疾病的关联不仅耗时且成本高昂,这限制了相关研究的进展。为了解决这一问题,研究人员开始开发计算模型,通过生物信息学方法预测circRNA与疾病的关联,从而为实验研究提供指导。 尽管多视图学习方法在预测circRNA与疾病关联方面得到了广泛应用,但现有方法往往未能充分利用不同视图之间的潜在信息,且忽略了不同视图对预测结果的重要性差异。因此,哈尔滨工业大学和电子科技大学的团队提出了一种结合共享单元和多通道注意力机制的新方法,名为MSMCDA(Multi...

基于APNet的稀疏深度学习模型在COVID-19严重程度驱动因素发现中的应用

学术背景 COVID-19大流行对全球公共卫生系统造成了巨大冲击,尽管目前疫情已有所缓解,但其复杂的免疫病理机制、长期后遗症(如“长新冠”)以及未来可能出现的类似威胁,仍然推动着相关研究的深入。特别是重症COVID-19患者,常伴随“细胞因子风暴”、急性呼吸窘迫综合征(ARDS)、多器官衰竭等严重症状,亟需更精准的预测模型和生物标志物来指导临床决策。 传统的机器学习(ML)和深度学习(DL)模型在高通量组学数据分析中表现出色,但往往缺乏生物可解释性,难以揭示非线性蛋白质动态(如翻译后修饰)和复杂的信号通路调控机制。为了解决这一问题,作者开发了APNet(Activity PASNet),一种结合了差异活性分析和生物信息驱动的稀疏深度学习模型,旨在通过可解释的预测发现COVID-19重症的驱动...

GSPA:基于单细胞分辨率的基因信号模式分析实现基因空间映射

单细胞分辨率下的基因空间映射:基因信号模式分析(GSPA)研究 学术背景 单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)技术近年来在生物学研究中取得了重大进展,尤其是在揭示细胞状态空间(cellular state space)的组织结构方面。然而,尽管已有许多计算方法用于映射细胞状态空间,但关于基因空间(gene space)的映射或嵌入(embedding)的研究却相对较少。基因表达是高度组织的,基因之间通过复杂的生物过程和通路协同工作。然而,由于生物和技术噪声(如基因丢失“dropout”现象),准确量化基因间的相似性仍然具有挑战性。为此,本文提出了一种基于图信号处理(graph signal processing, GSP)的新方法——...

评估大型语言模型在基因集功能发现中的应用

基于大语言模型探索基因集合功能发现:GPT-4的表现优异 学术背景 在功能基因组学(functional genomics)领域,基因集合富集分析(gene set enrichment analysis)是理解基因功能及其相关生物学过程的重要方法。然而,当前的富集分析主要依赖于文献整理的基因功能数据库,例如Gene Ontology (GO)等,这些数据库存在一定的局限性:数据不完整且更新速度有限。这导致了许多基因集合无法通过传统工具有效解析,这些未曾被明确标注的基因集合正是潜在产生重要生物学新见解的源泉。 在这种背景下,近年来生成式人工智能(generative artificial intelligence),尤其是诸如GPT-4的“大语言模型”(large language mode...