这篇文档属于类型a,即报告了一项单一原创研究的科学论文。以下是对该研究的学术报告:
本研究的主要作者包括Sarah Haggenmüller, MSc; Max Schmitt, MSc; Eva Krieghoff-Henning, PhD; Achim Hekler, MSc; Roman C. Maron, MSc; Christoph Wies, MSc; Jochen S. Utikal, MD; Friedegund Meier, MD; Sarah Hobelsberger, MD; Frank F. Gellrich, MD; Mildred Sergon, MD; Axel Hauschild, MD; Lars E. French, MD; Lucie Heinzerling, MD; Justin G. Schlager, MD; Kamran Ghoreschi, MD; Max Schlaak, MD; Franz J. Hilke, PhD; Gabriela Poch, MD; Sören Korsing, MD; Carola Berking, MD; Markus V. Heppt, MD; Michael Erdmann, MD; Sebastian Haferkamp, MD; Konstantin Drexler, MD; Dirk Schadendorf, MD; Wiebke Sondermann, MD; Matthias Goebeler, MD; Bastian Schilling, MD; Jakob N. Kather, MD; Stefan Fröhling, MD; Titus J. Brinker, MD。这些作者来自德国多家大学医院及研究机构,包括德国癌症研究中心(DKFZ)、曼海姆大学医学中心、德累斯顿大学医院等。该研究于2024年2月7日在线发表在《JAMA Dermatology》期刊上,DOI为10.1001/jamadermatol.2023.5550。
本研究的主要科学领域是人工智能(AI)在皮肤癌诊断中的应用,特别是针对黑色素瘤(melanoma)与痣(nevus)的二元分类。传统的AI模型开发通常需要大规模的集中式数据集,这要求医院共享患者数据,从而引发严重的隐私问题。为了解决这一问题,联邦学习(Federated Learning, FL)作为一种去中心化的AI训练方法被提出,它允许各医院在不共享数据的情况下共同训练模型。本研究的目的是探讨联邦学习在黑色素瘤诊断中的表现是否能够与传统的集中式学习(Classical Centralized Learning)和集成学习(Ensemble Learning)相媲美。
本研究为一项多中心、单臂诊断研究,旨在开发一种基于联邦学习的黑色素瘤与痣分类模型。研究流程包括以下几个主要步骤:
数据收集与预处理:研究纳入了2021年4月至2023年2月期间在德国6家大学医院前瞻性获取的1025张全切片图像(Whole-Slide Images, WSIs),这些图像来自923名患者,包括388例经组织病理学确认的侵袭性黑色素瘤和637例痣。所有图像均使用Aperio AT2 DX扫描仪数字化,并在40倍放大下生成分辨率为0.25 μm/像素的图像。研究还通过QuPath软件对图像进行了手动注释和分割,生成了224像素×224像素的方形图像块(patches)。
模型开发:研究使用了ResNet18模型(在ImageNet上预训练)进行联邦学习、集中式学习和集成学习的训练。联邦学习的模型在每个医院独立训练,并通过中央协调器定期交换权重并合并模型。集中式学习模型(Hfull)使用了所有医院的数据进行训练,而集成学习模型则分别训练了5个模型,并在推理时对结果进行平均。
模型评估:研究使用了两种测试数据集来评估模型的性能:一种是来自训练医院的保留测试数据集(holdout test dataset),另一种是来自未参与训练医院的外部测试数据集(external test dataset)。主要评估指标为接收者操作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUROC),次要指标包括平衡准确率(Balanced Accuracy)、灵敏度(Sensitivity)和特异性(Specificity)。
保留测试数据集上的表现:在保留测试数据集上,联邦学习的AUROC为0.8579(95% CI, 0.7693-0.9299),显著低于集中式学习的AUROC(0.9024; 95% CI, 0.8379-0.9565)和集成学习的AUROC(0.8867; 95% CI, 0.8103-0.9481)。
外部测试数据集上的表现:在外部测试数据集上,联邦学习的AUROC为0.9126(95% CI, 0.8810-0.9412),显著高于集中式学习的AUROC(0.9045; 95% CI, 0.8701-0.9331),但低于集成学习的AUROC(0.9227; 95% CI, 0.8941-0.9479)。
联邦学习与集中式学习的比较:在保留测试数据集上,集中式学习显著优于联邦学习;而在外部测试数据集上,联邦学习显著优于集中式学习。这表明联邦学习在处理分布外数据(out-of-distribution data)时具有更好的泛化能力。
本研究的结论表明,联邦学习在黑色素瘤与痣的二元分类任务中能够达到与集中式学习和集成学习相当的性能,尤其是在处理分布外数据时表现出色。联邦学习不仅能够提升隐私保护,还能促进跨机构和跨国家的合作。此外,联邦学习有潜力扩展到其他数字癌症组织病理学图像分类任务中。
重要发现:联邦学习在外部测试数据集上的表现优于集中式学习,表明其在处理分布外数据时具有更好的泛化能力。
方法创新:本研究首次在前瞻性、多中心、临床代表性数据集上评估了联邦学习在黑色素瘤诊断中的应用,并进行了外部验证。
研究对象的特殊性:研究纳入了多种黑色素瘤亚型和不同AJCC分期的病例,增强了模型的临床适用性和泛化能力。
本研究还探讨了联邦学习在临床实际应用中的可行性,特别是在数据隐私保护和计算资源有限的情况下。未来的研究可以进一步评估联邦学习在其他类型医学图像(如皮肤镜图像或高光谱图像)中的应用,以及其在其他癌症诊断中的潜力。