深度学习算法在英国乳腺癌筛查队列中的应用

深度学习算法在乳腺癌筛查中的应用

学术背景

乳腺癌是全球女性中最常见的癌症之一,早期筛查对于提高治愈率至关重要。传统的计算机辅助检测(Computer-Aided Detection, CAD)系统在乳腺X线摄影筛查中已被广泛使用,尤其是在美国。然而,这些系统虽然提高了召回率,但对读者(即放射科医生)的表现改善有限。近年来,深度学习(Deep Learning, DL)算法在医学影像分析中的应用迅速增长,特别是在乳腺癌筛查领域。多项系统综述和荟萃分析表明,自2017年以来,DL算法在乳腺X线摄影筛查中的证据迅速增加。尽管一些研究表明,DL算法作为单一读者时表现不逊于人类读者,但目前尚无独立算法能够在保持可接受召回率的同时,优于标准的双阅读系统。因此,DL算法目前还无法完全取代人类读者在双阅读系统中的作用。

然而,现有的研究存在一些局限性,如使用小规模测试队列、缺乏外部验证、未预设性能阈值等。此外,许多研究未包括间隔癌(interval cancers)和下一轮筛查中发现的癌症数据,这些数据对于评估DL算法在早期检测中的效果至关重要。因此,本研究旨在通过独立的外部数据集验证三种DL算法在乳腺X线摄影筛查中的表现,探讨其作为独立读者以及与人类读者结合时的性能。

论文来源

本论文由Sarah E. Hickman等人撰写,作者来自英国剑桥大学临床医学院放射科、伦敦皇家医院、剑桥大学医院NHS基金会信托等机构。论文于2024年11月发表在《Radiology》期刊上,题为《Deep Learning Algorithms for Breast Cancer Detection in a UK Screening Cohort: As Stand-Alone Readers and Combined with Human Readers》。

研究流程与结果

研究流程

本研究为回顾性研究,使用了来自英国两个筛查站点(剑桥和诺里奇)的乳腺X线摄影数据,时间跨度为2017年1月至12月。研究纳入了26,722例病例,其中332例为筛查发现的癌症,174例为间隔癌,254例为下一轮筛查中发现的癌症。研究的主要目的是验证三种商业DL算法(DL-1、DL-2和DL-3)作为独立读者以及与人类读者结合时的表现。

研究分为以下几个步骤:

  1. 数据收集与处理:研究使用了剑桥队列-东安格利亚数字影像档案(CC-MEDIA)数据库中的乳腺X线摄影数据。所有图像均以DICOM格式存储,并包含相应的临床元数据。研究排除了不符合标准的病例,如缺少双视图乳腺X线摄影图像、缺少真实标签等。

  2. DL算法的部署与评估:三种DL算法在2022年1月至6月期间在剑桥的研究机构中部署,并使用研究数据集进行评估。算法的训练细节已在之前的出版物中描述。

  3. 性能评估:研究预设了与单一读者相同的特异性阈值(96.5%),并评估了DL算法作为独立读者以及与人类读者结合时的表现。主要评估指标为敏感性和特异性,统计显著性水平设定为p < 0.025。

主要结果

  1. 独立DL阅读与单一人类阅读的比较:在预设阈值下,DL-1和DL-3的敏感性分别为64.8%和58.9%,均不逊于单一人类读者(62.8%)。DL-1和DL-2的特异性分别为92.8%和96.8%,均不逊于单一人类读者(96.5%),而DL-3的特异性为97.9%,优于单一人类读者。

  2. DL与人类阅读结合与双阅读的比较:DL算法与人类读者结合时,敏感性分别为67.0%、65.6%和65.4%,均不逊于双阅读系统(67.4%)。特异性分别为97.4%、97.6%和97.6%,均优于双阅读系统(97.1%)。然而,结合DL与人类阅读的仲裁率(即因读者决策不一致而需要复审的病例比例)有所增加。

  3. 间隔癌与下一轮癌症的检测:DL算法在检测间隔癌和下一轮癌症方面表现优于人类读者。DL-1、DL-2和DL-3分别检测了23.6%、13.2%和13.2%的间隔癌,以及23.2%、12.6%和7.1%的下一轮癌症,而人类读者仅检测了9.2%的间隔癌和5.1%的下一轮癌症。

结论

本研究表明,三种商业DL算法作为独立读者时,其表现不逊于单一人类读者,且在与人类读者结合时,能够保持与双阅读系统相同的筛查准确性。这为DL算法在乳腺癌筛查中的应用提供了有力支持,表明其可以作为人类读者的补充,减少工作量并提高筛查效率。然而,DL算法目前还无法完全取代人类读者在双阅读系统中的作用,未来的研究需要进一步探讨DL算法在不同筛查程序中的最佳应用方式。

研究亮点

  1. 独立验证:本研究首次在独立的外部数据集中验证了三种商业DL算法的性能,确保了结果的可靠性和普适性。
  2. 多中心数据:研究使用了来自英国两个筛查站点的数据,涵盖了不同厂商的乳腺X线摄影设备,增强了结果的广泛适用性。
  3. 间隔癌与下一轮癌症的检测:DL算法在检测间隔癌和下一轮癌症方面表现优于人类读者,表明其在早期癌症检测中的潜力。
  4. 结合人类阅读的优势:DL算法与人类读者结合时,能够保持与双阅读系统相同的筛查准确性,同时减少工作量,为未来的筛查程序提供了新的思路。

研究意义

本研究为DL算法在乳腺癌筛查中的应用提供了重要的实证支持,表明其可以作为人类读者的有效补充,减少工作量并提高筛查效率。未来的研究需要进一步探讨DL算法在不同筛查程序中的最佳应用方式,并评估其在实际临床环境中的长期效果。