基于深度学习的多模态数据整合在乳腺癌无病生存预测中的应用

乳腺癌是全球女性中最常见的恶性肿瘤之一,尽管早期干预和适当治疗已经显著提高了患者的生存率,但仍有约30%的病例会复发并发生远处转移,导致5年生存率低于23%。传统的临床预测方法,如生物标志物、临床影像和分子检测,虽然具有一定的价值,但其敏感性低、成本高、可用性有限,且存在患者内部的异质性等问题。因此,开发新的方法来可靠地预测术后乳腺癌患者的复发风险和生存率,以便及时干预和改善整体预后,成为当前研究的迫切需求。

近年来,人工智能(AI)技术的快速发展为乳腺癌的预后预测提供了新的可能性。深度学习作为一种强大的AI技术,能够从复杂的多模态数据中提取有价值的信息,结合病理图像、分子数据和临床信息,有望显著提高乳腺癌无病生存(Disease-Free Survival, DFS)的预测准确性。然而,现有的研究大多局限于单一模态数据,缺乏对多模态数据的整合分析。因此,如何有效整合多模态数据并开发出高精度的预测模型,成为当前乳腺癌研究中的一个重要挑战。

论文来源

本研究由Zehua Wang、Ruichong Lin、Yanchun Li等来自北京师范大学-香港浸会大学联合国际学院、澳门科技大学、中山大学等多家机构的科研团队共同完成。论文于2024年5月29日发表在《Precision Clinical Medicine》期刊上,题为“Deep learning-based multi-modal data integration enhancing breast cancer disease-free survival prediction”。

研究流程与结果

1. 数据收集与预处理

研究团队回顾性地收集了来自癌症基因组图谱(The Cancer Genome Atlas, TCGA)和中国一家独立机构的病理图像、分子数据和临床数据。研究对象包括1020名非转移性乳腺癌患者,这些患者被分为训练队列(n=741)、内部验证队列(n=184)和外部测试队列(n=95)。所有患者均提供了术前病理图像,并经过严格的纳入和排除标准筛选。

在数据预处理阶段,研究团队对病理图像进行了质量增强和分割处理。所有病理图像以20倍放大率扫描,并使用KF-PRO-005-EX数字病理扫描仪进行处理。图像被分割为256×256像素的补丁,并通过ResNet50模型进行特征提取,生成1024维的特征向量。

2. 分子数据预处理

为了确保分子数据的质量和可靠性,研究团队对训练队列中的741名患者的基因表达信息进行了标准化处理。通过单变量Cox回归分析,筛选出与预后显著相关的219个基因。此外,研究团队还使用XCell工具分析了96名患者的免疫细胞数据,量化了64种免疫和基质细胞类型的表达谱。

3. 深度学习模型的开发与训练

研究团队开发了一种基于多实例学习的深度学习模型,称为DeepClinMed-PGM(Deep Learning Clinical Medicine based Pathological Gene Multi-modal model)。该模型整合了病理图像、分子数据和临床信息,用于预测患者的无病生存率。

在特征提取阶段,模型通过ResNet50提取病理图像补丁的特征,并通过自注意力机制(Self-Attention Module)对特征进行加权。在生存预测阶段,模型将病理图像特征、分子数据和临床信息整合到一个全连接层中,最终输出患者的DFS风险评分。

4. 模型性能评估

研究团队在训练队列、内部验证队列和外部测试队列中对DeepClinMed-PGM模型进行了评估。结果显示,该模型在预测1年、3年和5年DFS时的AUC值分别为0.979、0.957和0.871(训练队列),0.886、0.745和0.825(内部验证队列),以及0.851、0.878和0.938(外部测试队列)。此外,模型的C指数值在三个队列中分别为0.925、0.823和0.864,显示出较高的预测准确性。

通过Kaplan-Meier分析,研究团队进一步验证了模型的风险分层能力。在训练队列中,高风险组和低风险组的DFS存在显著差异(HR=0.027, 95% CI: 0.0016–0.046, p<0.0001)。这一趋势在内部验证队列和外部测试队列中也得到了验证。

5. 模型的可视化与解释

为了深入理解模型的预测机制,研究团队使用Grad-CAM算法对病理图像中的关键区域进行了可视化分析。通过生成的热图,研究人员能够识别出肿瘤微环境中的高密度区域,这些区域与患者的预后密切相关。此外,研究团队还通过基因本体(GO)和京都基因与基因组百科全书(KEGG)通路分析,揭示了高风险组和低风险组在免疫细胞浸润和基因表达方面的差异。

结论与意义

本研究开发的DeepClinMed-PGM模型通过整合病理图像、分子数据和临床信息,显著提高了乳腺癌无病生存的预测准确性。该模型不仅在多个队列中表现出优异的预测性能,还通过可视化技术为临床医生提供了更深入的理解,帮助他们制定个性化的治疗方案。

该研究的科学价值在于首次将多模态数据整合到一个深度学习框架中,为乳腺癌的预后预测提供了新的方法。其应用价值在于能够帮助临床医生更准确地评估患者的复发风险,从而制定更有效的治疗策略。此外,该研究还为未来开发其他癌症的预后预测模型提供了重要的参考。

研究亮点

  1. 多模态数据整合:首次将病理图像、分子数据和临床信息整合到一个深度学习模型中,显著提高了预测准确性。
  2. 高预测性能:在多个队列中验证了模型的高预测性能,AUC值和C指数均显示出优异的预测能力。
  3. 可视化与解释性:通过Grad-CAM算法和热图分析,提供了对模型预测机制的深入理解,增强了模型的可解释性。
  4. 个性化治疗:通过风险分层,帮助临床医生制定个性化的治疗方案,提高患者的生存率。

其他有价值的信息

研究团队还发现,高风险组和低风险组在免疫细胞浸润和基因表达方面存在显著差异,这为未来研究乳腺癌的免疫治疗提供了新的线索。此外,研究团队还计划将该模型应用于其他类型的癌症,以验证其通用性和扩展性。

本研究通过深度学习技术整合多模态数据,为乳腺癌的预后预测提供了新的方法,具有重要的科学和应用价值。