利用可解释人工智能进行脑肿瘤检测和分类的视觉Transformer、集成模型以及迁移学习

由于脑肿瘤的高发病率和致命性,快速且准确地检测和分类脑肿瘤变得尤为重要。脑肿瘤包括恶性和非恶性两种类型,其异常生长会对大脑造成长期损害。磁共振成像(MRI)是一种常用的脑肿瘤检测方法。然而,依赖于专家手工分析 MRI 影像存在结果不一致的风险,同时仅仅识别肿瘤是不够的,快速确定肿瘤类型以尽早开始治疗同样重要。

为了提高肿瘤检测的速度、可靠性和公正性,本研究探索了多种深度学习(Deep Learning, DL)架构,包括 VGG16、InceptionV3、VGG19、ResNet50、InceptionResNetV2 和 Xception,并提出了基于最佳三种传递学习(Transfer Learning, TL)模型的新模型 IVX16。本文的多类分类模型旨在解决当前主要集中在二分类问题研究的现状,提供更准确的多类分类结果。

方法与流程

数据集

本研究使用包含四类数据(垂体肿瘤、胶质瘤、脑膜瘤和无肿瘤)的多类脑肿瘤数据集,共计 3264 张图像。数据集按 80%、10% 和 10% 划分为训练集、测试集和验证集。通过数据增强技术(如重缩放、剪切范围、缩放范围和水平翻转等)将数据集增强至 13056 张图像。

TL 模型与架构

研究中使用了六种 TL 模型: 1. VGG16:具有 16 层,能够有效处理复杂函数并在临床分析等实践领域表现出色。 2. InceptionV3:Google 的模型,计算成本相对较低,适合大型数据集。 3. VGG19:有 19 层,比 VGG16 多了一层卷积层,适用于复杂数据集。 4. ResNet50:残差网络,适合处理更深的网络,减少退化问题。 5. InceptionResNetV2:结合了 Inception 模型和残差连接,显着加快训练速度。 6. Xception:深度可分离卷积,节省计算资源且有效利用模型参数。

IVX16 集成模型

IVX16 基于 VGG16、InceptionV3 和 Xception 三个最佳模型,通过集成模型的方式增强了对数据变化和模型架构变化的鲁棒性。集成模型避免了过拟合问题,复杂性增强使其能够处理更复杂的图像模式。

Vision Transformer (ViT) 模型

此外,还比较了三种基于 Transformer 的视觉模型(Swin、CCT 和 EANet)的性能: 1. Swin:Shifted Windows 型 Transformer,使用滑动窗口机制提高处理效率和层次表示能力。 2. CCT:结合卷积和 Transformer 的方法,增强局部信息处理能力。 3. EANet:使用外部注意力模型提高计算效率和性能。

实验结果

TL 和集成模型的结果

IVX16 在训练和验证过程中表现最优,获得了 96.94% 的峰值准确率。其他 TL 模型如 InceptionV3、VGG16 和 Xception 也展现了良好的性能,但在检测和分类肿瘤时,IVX16 的表现更为优秀。

ViT 模型的结果

ViT 模型由于需要大数据量,在较小的数据集上表现不佳,出现了明显的过拟合现象。

解释性 AI

使用 LIME 工具评估了 TL 模型和 IVX16 模型的性能,以生成的图像展示了各模型对肿瘤区域分类的准确性。IVX16 在三个不同类型肿瘤的识别中均展示了较好的准确性,而单一的 TL 模型容易分类误差。

结论

本文提出的 IVX16 模型,通过集成 TL 模型,提高了脑肿瘤分类的准确性和可靠性。相比于单一模型和 ViT 模型,IVX16 展现出了更强的检测和分类能力,特别是在解释所预测的结果时更加准确和可信。未来的研究将探索更多增强模型性能和解释能力的方法,以进一步提高脑肿瘤检测的准确性和实用性。