解釈可能なAIを利用した脳腫瘍検出と分類のためのビジョントランスフォーマー、アンサンブルモデル、および転移学習

近年、脳腫瘍の高発生率と致命性のため、迅速かつ正確に脳腫瘍を検出し分類することが特に重要になってきています。脳腫瘍には悪性と非悪性の二種類があり、その異常な成長は脳に長期的な損傷を与えます。磁気共鳴画像(MRI)は一般的な脳腫瘍の検出方法です。しかし、専門家による手作業でのMRI画像分析に頼ると結果が一致しないリスクがあり、さらに単に腫瘍を識別するだけでは不十分で、迅速に腫瘍の種類を特定して早期に治療を開始することも重要です。

研究背景

腫瘍検出の速度、信頼性、公正性を向上させるために、本研究ではVGG16、InceptionV3、VGG19、ResNet50、InceptionResNetV2、Xceptionなど、さまざまな深層学習(Deep Learning, DL)アーキテクチャを探索し、最適な3つの転移学習(Transfer Learning, TL)モデルに基づいた新しいモデルIVX16を提案しました。本稿の多クラス分類モデルは、現在主に二値分類問題に集中している研究の現状を改善し、より正確な多クラス分類結果を提供することを目指しています。

研究出典

この研究はShahriar Hossain、Amitabha Chakrabarty、Thippa Reddy Gadekallu、Mamoun Alazab、Md. Jalil Piranら、BRAC University、Vellore Institute of Technology、Charles Darwin University、およびSejong Universityなど複数の機関からの著者によって行われました。論文は2024年3月のIEEE Journal of Biomedical and Health Informaticsに掲載されました。

方法とプロセス

データセット

本研究では、垂体腫瘍、膠芽腫、髄膜腫、非腫瘍の4つのカテゴリーの脳腫瘍データセット計3264枚の画像を使用しました。データセットは80%、10%、10%に分割され、トレーニングセット、テストセット、および検証セットとしました。データ拡張技術(リスケール、スケール範囲、水平反転など)を用いてデータセットを13056枚の画像に拡張しました。

TL モデルとアーキテクチャ

研究では6つのTLモデルを使用しました: 1. VGG16:16層あり、複雑な関数を効果的に処理でき、臨床分析などの実践分野で優れたパフォーマンスを示します。 2. InceptionV3:Googleのモデルで計算コストが比較的低く、大規模なデータセットに適しています。 3. VGG19:19層あり、VGG16より1層多い畳み込み層があり、複雑なデータセットに適しています。 4. ResNet50:残差ネットワークで、より深いネットワークを処理でき、劣化問題を軽減します。 5. InceptionResNetV2:Inceptionモデルと残差接続を組み合わせ、トレーニング速度を大幅に向上させます。 6. Xception:深さ方向に分離可能な畳み込みを用いて計算資源を節約し、モデルパラメータを効率的に利用します。

IVX16 統合モデル

IVX16はVGG16、InceptionV3、Xceptionの3つの最適モデルに基づいており、統合モデルの方式でデータ変動とモデルアーキテクチャの変動に対するロバスト性を強化しました。統合モデルはオーバーフィッティング問題を回避し、その複雑さの向上により、より高度な画像パターンを処理することが可能です。

Vision Transformer (ViT) モデル

さらに、3つのTransformerベースの視覚モデル(Swin、CCT、EANet)のパフォーマンスも比較しました: 1. Swin:Shifted Windows型Transformerで、スライディングウィンドウメカニズムを使用して処理効率と階層表現能力を向上させます。 2. CCT:畳み込みとTransformerを結合した方法で、局所情報処理能力を強化します。 3. EANet:外部注意モデルを使用して計算効率と性能を向上させます。

実験結果

TL と統合モデルの結果

IVX16はトレーニングと検証の過程で最も優れたパフォーマンスを示し、96.94%の最高精度を達成しました。他のTLモデル(InceptionV3、VGG16、Xception)も良好なパフォーマンスを示しましたが、腫瘍の検出と分類においてはIVX16が最も優れています。

ViT モデルの結果

ViTモデルは大規模なデータ量を必要とするため、比較的小規模なデータセットではパフォーマンスが低く、オーバーフィッティングの明らかな兆候が見られました。

説明性AI

LIMEツールを使用してTLモデルとIVX16モデルのパフォーマンスを評価し、生成された画像は各モデルの腫瘍領域の分類の正確性を示しました。IVX16は3つの異なるタイプの腫瘍認識においていずれも良好な精度を示し、単一のTLモデルは分類エラーが発生しやすいことが分かりました。

結論

本稿で提案されたIVX16モデルは、TLモデルを統合することで脳腫瘍分類の正確性と信頼性を向上させました。単一モデルやViTモデルと比較して、IVX16はより強力な検出・分類能力を示し、特に予測結果の説明においてより正確で信頼性が高いことが明らかになりました。将来の研究では、モデル性能と説明能力をさらに向上させる方法を探索し、脳腫瘍検出の正確性と実用性のさらなる向上を目指します。