生物工程-学科-FmRead学术前沿

背景介绍单细胞RNA测序（single cell RNA-seq, scRNA-seq）技术近年来在生物医学研究中得到了广泛应用，它能够揭示单个细胞中基因表达的异质性，为理解细胞类型、细胞状态以及疾病机制提供了重要工具。然而，scRNA-seq数据具有小样本、高维度、高噪声等特点，这使得在聚类和分类之前进行基因选择成为必要步骤。传统的统计分析和机器学习方法在处理高维数据时往往面临“维度灾难”问题，因此，如何有效地从海量基因中选择出具有代表性的基因，成为当前研究的热点之一。为了解决这一问题，本文作者提出了一种基于模糊粗糙迭代计算模型（Fuzzy Rough Iterative Computation Model, FRIC-Model）的基因选择方法。该方法通过引入模糊对称关系（fuzzy...

T细胞受体（TCR）在免疫系统中扮演着关键角色，能够识别由主要组织相容性复合物（MHC）呈递的抗原肽，从而启动针对病原体和肿瘤细胞的免疫反应。然而，TCR的特异性（即区分自身抗原和非自身抗原的能力）是免疫系统有效运作的核心。尽管工程化的高亲和力TCR在增强抗原识别方面显示出潜力，但它们往往失去特异性，导致与自身抗原的交叉反应，进而引发严重的副作用。这一现象的机制尚不明确，阻碍了TCR在癌症免疫治疗和传染病治疗中的应用。自然进化的TCR在动态生物力学调控下表现出极高的特异性，而工程化的高亲和力TCR则常常失去这种特异性。本研究旨在揭示自然TCR如何利用机械力形成最佳的“捕捉键”（catch bonds），并探讨高亲和力TCR失去特异性的机制。通过研究TCR与抗原肽-MHC复合物（pMHC）的...

在基因组学领域，理解基因组的空间组织对于揭示基因调控机制至关重要。Hi-C技术作为一种全基因组染色体构象捕获技术，能够揭示基因组的三维结构，特别是染色质环（chromatin loops）在基因调控中的关键作用。然而，现有的Hi-C数据分析方法通常只能识别共享的染色质环，而难以检测细胞类型特异性的染色质环。这限制了我们对不同细胞类型中基因调控机制的理解。为了解决这一问题，Rui Liu等人提出了一种新的算法——SSSHiC（Significance in Scale Space for Hi-C Data），旨在通过尺度空间分析来识别细胞类型特异性的染色质环，从而更好地理解基因调控的细胞特异性。论文来源这篇论文由Rui Liu、Zhengwu Zhang、Hyejung Won和J. S...

非编码RNA（ncRNA）在细胞过程和疾病发展中扮演着关键角色。尽管基因组测序项目揭示了大量非编码基因的存在，但ncRNA的功能和分类仍然是一个复杂且具有挑战性的问题。ncRNA的多样性、复杂性和功能性使其成为生物医学研究的重要对象，尤其是在生物标志物和治疗靶点的发现中。然而，现有的ncRNA分类工具大多仅依赖于单一或两种数据类型（如序列或二级结构），忽略了其他可能提供重要信息的数据源。此外，现有方法通常缺乏可解释性，难以揭示不同ncRNA类别的特征。为了解决这些问题，来自Université Paris-Saclay和Institut Curie的研究团队提出了一种名为MMNC（Multi-Modal Interpretable Representation for Non-Coding...

基因组分析的隐私保护框架：基于多密钥同态加密的研究学术背景随着基因组测序成本的降低，基因组数据的广泛可用性为个性化医疗（也称为基因组医学）开辟了新的可能性。然而，基因组数据包含大量敏感信息，如疾病易感性、祖先信息和身体特征，这些信息的隐私问题成为了医学研究和数据共享的重大障碍。尽管研究人员已经提出了多种隐私保护技术，但现有的基于密码学的方法在互操作性、可扩展性、隐私保护程度以及多方分析支持方面仍存在不足。这些局限性限制了基因组数据的潜力，阻碍了其在医学研究中的应用。因此，开发一种既能保护隐私又能支持多方基因组数据处理的加密技术成为了迫切需求。论文来源这篇论文由Mina Namazi、Mohammadali Farahpoor、Erman Ayday和Fernando Pérez-Go...

T细胞受体（TCR）在适应性免疫系统中起着至关重要的作用，它们通过与特定抗原表位（epitope）结合来识别病原体。理解TCR与表位之间的相互作用对于揭示免疫反应的生物学机制以及开发T细胞介导的免疫疗法具有重要意义。然而，尽管TCR的CDR3区域在表位识别中的重要性已被广泛认可，但如何准确预测与特定疾病或表型相关的TCR-表位相互作用仍是一个挑战。为此，研究人员开发了EpicPred，一种基于注意力机制的多实例学习（Multiple Instance Learning, MIL）模型，旨在预测与癌症或COVID-19患者严重程度相关的TCR-表位相互作用。论文来源该论文由Jaemin Jeon、Suwan Yu、Sangam Lee、Sang Cheol Kim、Hye-Yeong Jo...

学术背景随着测序技术的飞速发展，科学家们已经能够获得大量的蛋白质序列数据，其中包括许多酶序列。然而，尽管像京都基因与基因组百科全书（KEGG）和BRENDA这样的大型酶数据库已经建立，许多酶的序列信息仍然缺失。这些缺乏序列信息的酶被称为“孤儿酶”（orphan enzymes）。孤儿酶的存在严重阻碍了基于序列相似性的功能注释，导致在理解序列与酶促反应之间关系时存在巨大空白。孤儿酶的问题不仅限于序列信息的缺失，还影响了我们对生物过程的理解。例如，人类肠道微生物群中的许多代谢过程，如短链脂肪酸（short-chain fatty acid, SCFA）的生产，与肠道炎症和癌症进展密切相关。然而，许多这些反应涉及孤儿酶，导致相关基因无法被识别。因此，开发一种不依赖于序列相似性的方法来预测酶活性...

质粒（plasmid）是细菌中独立于染色体DNA的小型环状双链DNA分子，它们通过水平基因转移（horizontal gene transfer）帮助宿主细菌获得抗生素抗性、金属抗性等有益特性。一些质粒能够在多种微生物中转移、复制或持续存在，这类质粒被称为广宿主范围质粒（broad-host-range plasmids, BHR plasmids）。准确预测BHR质粒的宿主范围对于理解质粒如何促进细菌进化、传播抗性基因以及开发重组载体具有重要意义。然而，目前缺乏提供BHR质粒详细宿主范围标签的数据库，这使得基于机器学习模型的宿主范围预测面临挑战。由于缺乏足够的标注样本，模型难以提取有效的特征表示，导致预测精度受限。为了解决这一问题，香港城市大学电气工程系的Wei Zou、Yongxin ...

学术背景 DNA序列比对是基因组学中的一项核心任务，旨在将短DNA片段（reads）定位到参考基因组上的最可能位置。传统方法通常分为两个步骤：首先对基因组进行索引，然后通过高效搜索定位reads的可能位置。然而，随着基因组数据的爆炸式增长，尤其是面对长达数十亿碱基的参考基因组时，传统的比对方法在计算效率和准确性上面临巨大挑战。近年来，Transformer模型在自然语言处理（NLP）领域的成功启发了研究人员将其应用于DNA序列分析。尽管已有研究表明Transformer模型在短DNA序列分类任务中表现优异，但序列比对任务需要在整个基因组范围内进行搜索，这对模型的全局搜索能力提出了更高要求。为此，本研究提出了一种名为“embed-search-align”（ESA）的新框架，旨在通过Tran...

肿瘤的发展过程中，基因组拷贝数变异（Copy Number Alterations, CNAs）是驱动肿瘤异质性和进化的重要因素。理解这些变异对于开发个性化的癌症诊断和治疗方法至关重要。单细胞测序技术提供了最高分辨率的拷贝数分析，能够深入到单个细胞水平。然而，低读深（low read-depth）的全基因组测序数据给拷贝数变异的检测带来了巨大的统计和计算挑战。现有的计算方法大多忽略了细胞之间的进化关系，导致检测结果不够准确。因此，开发一种能够结合细胞进化历史的拷贝数检测方法成为当前研究的迫切需求。论文来源本论文由ETH Zurich（瑞士联邦理工学院）和SIB Swiss Institute of Bioinformatics（瑞士生物信息学研究所）的研究团队共同完成，主要作者包括Jac...

基于模糊粗糙迭代计算模型的单细胞RNA-seq数据基因选择

T细胞受体（TCR）机械力调控特异性机制的研究

基于尺度空间显著性的Hi-C数据分析方法

MMNC——一种多模态可解释的非编码RNA分类方法

基于多密钥同态加密的基因组计算隐私保护框架

EpicPred——基于注意力机制的多实例学习预测表位驱动的T细胞受体表型

基于深度学习的酶筛选工具DeepES在孤儿酶基因识别中的应用

基于自校正多标签学习的质粒宿主范围预测模型

基于Transformer模型的DNA序列比对方法研究

单细胞拷贝数变异与事件历史重建的SCICONE模型