GCLink:一种用于基因调控网络推断的图对比链接预测框架

研究背景

基因调控网络(Gene Regulatory Networks, GRNs)是理解细胞内复杂生物过程的关键工具。它揭示了转录因子(Transcription Factors, TFs)与靶基因之间的相互作用,从而控制基因的转录过程,进而调控细胞行为。随着单细胞RNA测序(single-cell RNA-sequencing, scRNA-seq)技术的发展,研究者能够在单细胞分辨率下获取基因表达数据,这为GRNs的推断提供了前所未有的机会。然而,scRNA-seq数据的稀疏性和高变异性为GRNs的推断带来了巨大挑战。

现有的GRN推断方法主要分为两类:基于相关性或互信息的无监督学习方法,以及基于机器学习的监督学习方法。尽管这些方法在某些情况下表现出色,但它们往往依赖于成对基因的相关性,忽略了全局信息,导致泛化能力有限。此外,许多方法在处理数据噪声和稀疏性时表现不佳,尤其是在已知调控相互作用有限的情况下。

为了应对这些挑战,研究者们提出了基于图神经网络(Graph Neural Networks, GNNS)的方法。GNNS能够处理图结构数据,并在节点分类、图分类和链接预测等任务中表现出色。然而,现有的GNN方法在处理已知调控相互作用有限或网络中存在噪声时,仍然面临挑战。

研究团队与发表信息

本研究由来自深圳大学的Weiming Yu、Zerun Lin、Miaofang Lan以及深圳莫斯科北京大学的Le Ou-Yang共同完成。论文于2025年2月17日发表在《Bioinformatics》期刊上,题为“GCLink: A Graph Contrastive Link Prediction Framework for Gene Regulatory Network Inference”。该研究得到了国家自然科学基金、广东省基础与应用基础研究基金、深圳市科技计划等多个项目的支持。

研究框架与方法

问题定义

GRN可以表示为一个图 ( G = (V, E) ),其中 ( V ) 表示节点集,( E ) 表示边集。scRNA-seq数据可以表示为一个基因表达矩阵 ( X \in R^{m \times n} ),其中 ( m ) 表示基因数量,( n ) 表示细胞数量。已知的基因调控相互作用可以用邻接矩阵 ( A \in R^{m \times m} ) 表示,其中 ( A{ij} = 1 ) 表示基因 ( i ) 和基因 ( j ) 之间存在调控关系,否则 ( A{ij} = 0 )。本研究的主要目标是基于已知的调控相互作用推断潜在的调控关系,这可以视为一个链接预测问题。

图增强

为了增强模型在处理稀疏网络时的能力,研究者采用了图增强策略。具体来说,他们保留了原始图,并随机删除部分边,生成一个扰动图。通过这种方式,模型能够在保留已知信息的同时,适应极端稀疏的场景。

基因表示学习

研究者利用图注意力网络(Graph Attention Network, GAT)从基因表达数据中提取基因的低维表示。GAT通过自注意力机制为每个基因分配权重,从而聚合邻居基因的信息。通过多注意力头机制,GAT能够稳定地学习基因表示。

图对比学习

在获得基因的低维表示后,研究者进一步利用图对比学习优化这些表示。他们使用跨视图对比损失来最大化同一基因在不同视图中的表示一致性,并区分其他基因。这种方法能够在已知调控相互作用有限的情况下,学习到高质量的基因表示。

链接预测

为了推断基因之间的潜在调控关系,研究者将基因的低维表示输入多层感知机(MLP),并通过点积运算计算基因之间的链接得分。最终,这些得分通过sigmoid函数映射为0到1之间的概率值,表示基因之间存在调控关系的可能性。

实验结果

基准数据集上的性能

研究者在多个scRNA-seq数据集上评估了GCLink的性能,并与六种基准方法进行了比较。实验结果表明,GCLink在大多数数据集上的AUROC(Area Under the Receiver Operating Characteristic Curve)和AUPRC(Area Under the Precision-Recall Curve)得分均优于其他方法。特别是在细胞类型特异性ChIP-seq网络中,GCLink的表现尤为突出。

少样本研究

为了验证GCLink在已知调控相互作用有限的情况下的泛化能力,研究者进行了少样本实验。他们选择了一个具有丰富已知调控相互作用的细胞系作为源细胞系进行预训练,并在目标细胞系上进行微调。实验结果表明,GCLink在少样本场景下表现出色,具有较高的迁移能力。

超参数分析

研究者还分析了不同超参数对模型性能的影响,特别是随机删除边的概率。实验结果表明,将删除边的概率设置为0.2时,模型在大多数数据集上表现最佳。

案例研究

研究者将GCLink应用于人类胚胎干细胞(hESC)数据集,并成功推断出一些新的调控相互作用。这些结果表明,GCLink不仅能够准确推断已知的调控关系,还能够预测潜在的调控相互作用。

讨论与意义

GCLink通过结合图注意力和对比学习,显著提高了GRN推断的准确性,尤其是在已知调控相互作用有限的情况下。该方法不仅能够处理scRNA-seq数据的稀疏性和噪声,还能够有效应对数据中的高变异性。此外,GCLink在少样本场景下的优异表现表明其具有较高的迁移能力和泛化性能。

然而,GCLink仍然依赖于高质量的已知调控相互作用网络,并且在网络中存在噪声时,模型性能可能会下降。未来的研究可以进一步探索如何在完全无监督的场景下提高模型的迁移能力,并改进图增强方法以增强模型的稳定性。

结论

GCLink为GRN推断提供了一种新的解决方案,特别是在单细胞分辨率下处理复杂、稀疏的基因表达数据时表现出色。该方法不仅能够显著提高推断的准确性,还能够在已知调控相互作用有限的情况下保持较高的泛化能力,为生物学研究提供了强有力的工具。