多模态学习用于基因型-表型动态映射
多模态学习揭示基因型-表型动态关系
背景介绍
基因型与表型之间的复杂关系一直是生物学领域的核心问题之一。基因型(genotype)指生物体的遗传信息,而表型(phenotype)则是这些遗传信息在特定环境下的表现。尽管早在1909年,Wilhelm Johannsen就提出了这两个术语,并试图量化它们之间的关系,但一个多世纪以来,我们仍然无法精确地描述基因型如何通过复杂的基因表达模式塑造表型。近年来,单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)等技术的发展使得我们能够在细胞分辨率下观察基因表达的复杂动态,然而这些技术仍然无法全面映射基因型组合如何导致表型的产生。
当前的研究方法,如正向遗传学(forward genetics)和反向遗传学(reverse genetics),在理论上能够解析基因型与表型的关系,但在实践中却因研究规模和复杂性而显得力不从心。特别是在人类细胞中,成千上万的基因组合会形成一个极其多样的表型景观。此外,scRNA-seq虽然能够揭示细胞之间数千个基因表达的变化,但也使得从这些高维数据中提取有意义的生物学结论变得更加复杂。近年来,机器学习的发展,特别是从自然语言处理(natural language processing, NLP)领域引入的自监督Transformer架构,为分析复杂生物数据集提供了新的希望。
论文来源
本文题为《Multimodal Learning for Mapping Genotype–Phenotype Dynamics》,由Farhan Khodaee、Rohola Zandie和Elazer R. Edelman共同撰写。他们分别来自麻省理工学院的医学工程与科学研究所(Institute for Medical Engineering and Science, Massachusetts Institute of Technology)和布莱根妇女医院的心血管医学系(Department of Medicine, Brigham and Women’s Hospital)。论文于2024年5月1日接受,并于2024年12月20日在线发表在《Nature Computational Science》期刊上。
研究流程
1. 研究目标与方法设计
本研究旨在开发一种计算框架,通过整合高维基因型和表型数据,同时分析基因表达与表型表现之间的动态关系。为此,作者提出了一个多模态基础模型——Polygene,该模型利用自监督语言模型(self-supervised language models)同时映射基因型与表型的关系。Polygene模型的核心创新在于将单细胞RNA测序数据与表型信息(如性别、年龄、组织类型和细胞类型)结合,从而增强对基因表达生物学背景的理解。
2. 数据预处理与模型输入
研究使用了Tabula Sapiens单细胞转录组数据集,该数据集包含来自24个器官的近50万个人类细胞。每个细胞的基因表达值被归一化并分箱(binning),以便进行后续分析。模型输入包括基因表达值和相关表型信息,这些信息被编码为向量表示并输入到网络中。
3. 模型架构与训练
Polygene模型基于Transformer架构,采用自监督学习方法进行预训练。具体来说,模型通过随机掩码(masking)一部分基因表达值,然后根据剩余基因预测被掩码的基因值。这种方法类似于自然语言处理中的掩码语言建模(masked language modeling)。训练过程中,表型和基因型分别以50%和15%的概率被掩码,以确保模型的鲁棒性。
4. 结果分析与验证
为了评估模型的性能,作者对Polygene模型的输出进行了多层次的分析。首先,他们利用模型生成的基因和表型嵌入(embeddings)进行细胞类型、组织来源、年龄和性别的分类。结果显示,Polygene在区分密切相关细胞类型和状态方面优于其他最先进的方法,如scGPT。此外,作者还通过余弦相似性分析,揭示了基因在不同表型背景下的动态功能。例如,H4C3基因在所有表型中表现出显著的相似性,表明其在细胞增殖和细胞周期进程中具有基础性作用。
5. 基因网络的重构与多功能性分析
研究的另一个关键贡献是揭示了基因网络在不同表型背景下的动态结构。通过对内皮细胞(endothelial cells, ECs)中基因网络的分析,作者发现衰老会改变基因网络的功率律分布,表明网络结构发生了重组。此外,通过分析von Willebrand因子(von Willebrand factor, VWF)基因的嵌入,作者发现该基因在内皮细胞中具有两种功能截然不同的簇,分别与血液凝固和氧化应激反应相关。
主要结果与逻辑关系
基因与表型嵌入的生成:Polygene模型成功生成了高维基因和表型嵌入,这些嵌入能够准确捕捉细胞类型、组织来源、年龄和性别的差异。例如,模型在区分心脏心室和心房组织时表现出色,这与它们在功能和解剖上的紧密关系一致。
基因功能的多重性:通过分析VWF基因的嵌入,研究揭示了该基因在内皮细胞中的多功能性。这不仅扩展了我们对基因功能的理解,还为药物发现和细胞治疗提供了新的视角。
基因网络的重构:研究表明,衰老会改变内皮细胞中基因网络的结构,特别是低连接度节点的作用发生变化。这一发现为研究血管老化提供了新的候选基因,如KCNH8和DNJA4。
结论与价值
本研究通过整合高维基因型和表型数据,开发了一个多模态基础模型Polygene,成功揭示了基因型与表型之间的复杂动态关系。该研究的科学价值在于提供了一个新的计算框架,能够同时分析基因表达和表型信息,从而增强对基因表达生物学背景的理解。应用价值则体现在该模型在发现跨组织生物标志物、解析基因多功能性以及加速治疗靶点发现方面的潜力。
亮点与创新
多模态学习方法:本研究首次将自监督语言模型引入基因型-表型关系的研究,开创了整合遗传学(integrated genetics)的新范式。
多功能基因的发现:通过对VWF和CD55基因的分析,研究揭示了基因在不同细胞和表型背景下的多功能性,这一发现为个性化医疗提供了新的方向。
基因网络的重构:研究首次报道了RNA表达数据中基因网络的依赖背景结构,特别是在衰老背景下的基因网络重构,为理解血管老化提供了新的视角。
其他有价值的信息
数据与代码的公开:研究团队已将Polygene模型的训练脚本、转录组分词器以及数据和推理的预处理代码公开发布在GitHub和Zenodo上,便于其他研究者复现和扩展研究结果。
未来研究方向:作者指出,未来可以进一步优化数据处理技术,使得模型能够更高效地处理多样化的转录组数据,同时扩展模型的应用范围,特别是在个性化医疗和药物发现领域。
通过这项研究,我们不仅深入理解了基因表达与表型表现之间的复杂关系,还为未来的基因组学研究奠定了坚实的基础。