英国の乳がんスクリーニングコホートにおける深層学習アルゴリズム:独立した読影と人間の読影との組み合わせ

乳がんスクリーニングにおける深層学習アルゴリズムの応用

学術的背景

乳がんは世界中の女性において最も一般的ながんの一つであり、早期スクリーニングは治癒率の向上に不可欠です。従来のコンピュータ支援検出(Computer-Aided Detection, CAD)システムは、特に米国においてマンモグラフィースクリーニングで広く使用されてきました。しかし、これらのシステムはリコール率を向上させる一方で、読影者(放射線科医)のパフォーマンス改善には限定的な効果しかありませんでした。近年、深層学習(Deep Learning, DL)アルゴリズムの医療画像解析への応用が急速に進んでおり、特に乳がんスクリーニング分野で注目されています。複数のシステマティックレビューとメタアナリシスによると、2017年以降、DLアルゴリズムのマンモグラフィースクリーニングにおけるエビデンスが急速に増加しています。一部の研究では、DLアルゴリズムが単一の読影者として人間の読影者に劣らない性能を示すことが報告されていますが、現時点では、許容可能なリコール率を維持しながら標準的なダブルリーディングシステムを上回る独立アルゴリズムは存在しません。したがって、DLアルゴリズムは現時点ではダブルリーディングシステムにおける人間の読影者を完全に置き換えることはできません。

しかし、既存の研究にはいくつかの限界があります。例えば、小規模なテストコホートの使用、外部検証の欠如、事前設定された性能閾値の欠如などが挙げられます。さらに、多くの研究では、DLアルゴリズムの早期検出効果を評価するために必要なインターバルがん(interval cancers)や次のラウンドで発見されたがんのデータが含まれていません。したがって、本研究は、独立した外部データセットを使用して、3つのDLアルゴリズムのマンモグラフィースクリーニングにおける性能を検証し、独立した読影者として、および人間の読影者と組み合わせた場合の性能を探ることを目的としています。

論文の出典

本論文は、Sarah E. Hickmanらによって執筆され、著者は英国ケンブリッジ大学臨床医学部放射線科、ロンドン王立病院、ケンブリッジ大学病院NHS財団トラストなどの機関に所属しています。論文は2024年11月に『Radiology』誌に掲載され、タイトルは「Deep Learning Algorithms for Breast Cancer Detection in a UK Screening Cohort: As Stand-Alone Readers and Combined with Human Readers」です。

研究のプロセスと結果

研究のプロセス

本研究は、英国の2つのスクリーニングサイト(ケンブリッジとノリッジ)のマンモグラフィーデータを使用したレトロスペクティブ研究で、2017年1月から12月までの期間を対象としています。研究には26,722例が含まれ、そのうち332例がスクリーニングで発見されたがん、174例がインターバルがん、254例が次のラウンドで発見されたがんです。研究の主な目的は、3つの商用DLアルゴリズム(DL-1、DL-2、DL-3)の独立した読影者として、および人間の読影者と組み合わせた場合の性能を検証することです。

研究は以下のステップで進められました:

  1. データ収集と処理:研究では、ケンブリッジコホート-東アングリアデジタルイメージアーカイブ(CC-MEDIA)データベースのマンモグラフィーデータを使用しました。すべての画像はDICOM形式で保存され、対応する臨床メタデータが含まれています。研究では、二視野マンモグラフィー画像が利用できない場合や、グランドトゥルース(正解データ)が利用できない場合など、基準を満たさない症例を除外しました。

  2. DLアルゴリズムの展開と評価:3つのDLアルゴリズムは、2022年1月から6月にかけてケンブリッジの研究機関に展開され、研究データセットを使用して評価されました。アルゴリズムのトレーニングの詳細は、以前の出版物で説明されています。

  3. 性能評価:研究では、単一の読影者と同じ特異性閾値(96.5%)を事前に設定し、DLアルゴリズムが独立した読影者として、および人間の読影者と組み合わせた場合の性能を評価しました。主な評価指標は感度と特異性で、統計的有意性はp < 0.025と設定されました。

主な結果

  1. 独立したDL読影と単一の人間読影の比較:事前設定された閾値では、DL-1とDL-3の感度はそれぞれ64.8%と58.9%で、単一の人間読影者(62.8%)に劣りませんでした。DL-1とDL-2の特異性はそれぞれ92.8%と96.8%で、単一の人間読影者(96.5%)に劣りませんでしたが、DL-3の特異性は97.9%で、単一の人間読影者を上回りました。

  2. DLと人間読影の組み合わせとダブルリーディングの比較:DLアルゴリズムと人間読影者を組み合わせた場合、感度はそれぞれ67.0%、65.6%、65.4%で、ダブルリーディングシステム(67.4%)に劣りませんでした。特異性はそれぞれ97.4%、97.6%、97.6%で、ダブルリーディングシステム(97.1%)を上回りました。しかし、DLと人間読影を組み合わせた場合の仲裁率(読影者の判断が一致しないために再審査が必要な症例の割合)は増加しました。

  3. インターバルがんと次のラウンドで発見されたがんの検出:DLアルゴリズムは、インターバルがんと次のラウンドで発見されたがんの検出において、人間の読影者よりも優れていました。DL-1、DL-2、DL-3はそれぞれ23.6%、13.2%、13.2%のインターバルがんを検出し、23.2%、12.6%、7.1%の次のラウンドで発見されたがんを検出しましたが、人間の読影者は9.2%のインターバルがんと5.1%の次のラウンドで発見されたがんしか検出しませんでした。

結論

本研究は、3つの商用DLアルゴリズムが独立した読影者として単一の人間読影者に劣らない性能を示し、人間の読影者と組み合わせた場合にはダブルリーディングシステムと同じスクリーニング精度を維持できることを示しました。これは、DLアルゴリズムが乳がんスクリーニングにおいて人間の読影者を補完し、作業負荷を軽減しつつスクリーニング効率を向上させる可能性を示しています。しかし、現時点ではDLアルゴリズムはダブルリーディングシステムにおける人間の読影者を完全に置き換えることはできず、今後の研究では、異なるスクリーニングプログラムにおけるDLアルゴリズムの最適な応用方法をさらに探る必要があります。

研究のハイライト

  1. 独立した検証:本研究は、独立した外部データセットを使用して3つの商用DLアルゴリズムの性能を初めて検証し、結果の信頼性と一般化可能性を確保しました。
  2. 多施設データ:研究では、英国の2つのスクリーニングサイトからのデータを使用し、異なるメーカーのマンモグラフィー装置をカバーすることで、結果の広範な適用性を高めました。
  3. インターバルがんと次のラウンドで発見されたがんの検出:DLアルゴリズムは、インターバルがんと次のラウンドで発見されたがんの検出において人間の読影者よりも優れており、早期がん検出における潜在的可能性を示しています。
  4. 人間読影との組み合わせの利点:DLアルゴリズムと人間読影を組み合わせることで、ダブルリーディングシステムと同じスクリーニング精度を維持しつつ、作業負荷を軽減することができ、今後のスクリーニングプログラムに新たな視点を提供します。

研究の意義

本研究は、DLアルゴリズムが乳がんスクリーニングにおいて人間の読影者を効果的に補完し、作業負荷を軽減しつつスクリーニング効率を向上させる可能性を示す重要な実証的サポートを提供しました。今後の研究では、異なるスクリーニングプログラムにおけるDLアルゴリズムの最適な応用方法をさらに探り、実際の臨床環境における長期的な効果を評価する必要があります。