MediVision:通过监督学习分类和Grad-CAM可视化赋能结直肠癌诊断与肿瘤定位

学术背景

结直肠癌(Colorectal Cancer, CRC)是全球范围内最常见的癌症之一,尤其在50岁以上人群中发病率显著增加。早期检测和准确诊断是提高患者生存率的关键。然而,传统的结直肠癌筛查方法,如结肠镜检查,依赖于医生的经验和视觉判断,存在一定的主观性和误诊风险。近年来,人工智能(Artificial Intelligence, AI)和深度学习(Deep Learning, DL)技术在医学影像分析中的应用为结直肠癌的自动化诊断提供了新的可能性。然而,现有的AI模型在图像特征提取和模型解释性方面仍存在不足,尤其是在处理不同成像条件下的图像时,模型的泛化能力和透明度亟待提高。

为了解决这些问题,研究者开发了Medivision系统,该系统结合了卷积神经网络(Convolutional Neural Networks, CNNs)、灰度共生矩阵(Gray-Level Co-occurrence Matrix, GLCM)特征提取和梯度加权类激活映射(Gradient-weighted Class Activation Mapping, Grad-CAM)可视化技术,旨在提高结直肠癌检测的准确性和模型的解释性。

论文来源

该研究由Akella S. Narasimha Raju、K. Venkatesh、Ranjith Kumar Gatla、Shaik Jakeer Hussain和Subba Rao Polamuri等学者共同完成,分别来自不同的研究机构。论文于2025年发表在《Cognitive Computation》期刊上,题为《Medivision: Empowering Colorectal Cancer Diagnosis and Tumor Localization through Supervised Learning Classifications and Grad-CAM Visualization of Medical Colonoscopy Images》。

研究流程

1. 数据预处理与增强

研究首先对三个结肠镜图像数据集(CVC Clinic DB、Kvasir2和Hyper Kvasir)进行了预处理和增强。预处理步骤包括图像大小调整为224×224像素、像素归一化、高斯滤波降噪等。数据增强技术包括随机旋转、翻转、缩放和裁剪,以增加数据集的多样性和模型的泛化能力。

2. 特征提取

研究使用GLCM技术从预处理后的图像中提取纹理特征。GLCM通过计算像素对的空间关系,提取了六个关键特征:差异性(Dissimilarity)、相关性(Correlation)、同质性(Homogeneity)、对比度(Contrast)、角二阶矩(Angular Second Moment, ASM)和能量(Energy)。这些特征用于捕捉结直肠息肉和癌变组织的细微纹理变化。

3. 模型训练与评估

研究评估了七种预训练的CNN架构(ResNet50、VGG16、VGG19、DenseNet201、EfficientNetB7、NASNetLarge和InceptionResNetV2)以及两种集成CNN模型(Dev-22和RV-22)。Dev-22结合了DenseNet201、EfficientNetB7和VGG16,而RV-22结合了ResNet50和VGG19。每个模型在三个数据集上进行了训练和测试,评估指标包括训练准确率、测试准确率、F1分数、召回率和精确率。

4. Grad-CAM可视化

为了增强模型的解释性,研究使用了Grad-CAM技术生成热图,突出显示图像中对模型预测最重要的区域。Grad-CAM通过计算卷积层特征图的梯度,生成类激活映射,帮助医生理解模型的决策过程。

主要结果

1. 模型性能

在所有评估的CNN架构中,VGG16在三个数据集上均表现出色。在CVC Clinic DB数据集上,VGG16的测试准确率达到96.12%,在Kvasir2数据集上为94.25%,在Hyper Kvasir数据集上为98.87%。集成模型Dev-22在多个数据集上也表现出较高的准确率,尤其是在CVC Clinic DB数据集上,测试准确率达到97.86%。

2. Grad-CAM可视化

Grad-CAM热图成功定位了结肠镜图像中的息肉区域,提供了直观的视觉解释。VGG16和Dev-22生成的Grad-CAM图像显示出较高的定位精度,帮助医生更好地理解模型的预测结果。

结论与意义

Medivision系统通过结合CNNs、GLCM和Grad-CAM技术,显著提高了结直肠癌检测的准确性和模型的解释性。该系统的成功应用为临床医生提供了一个高效、可靠的辅助诊断工具,特别是在处理复杂多变的结肠镜图像时,表现出较强的泛化能力和透明度。

研究亮点

  1. 高准确性:VGG16和Dev-22在多个数据集上均表现出较高的检测准确率,尤其是在CVC Clinic DB数据集上,测试准确率接近98%。
  2. 模型解释性:Grad-CAM技术增强了模型的透明度,帮助医生理解模型的决策过程,提高了临床应用的信任度。
  3. 集成模型:Dev-22和RV-22的集成设计充分利用了不同CNN架构的优势,进一步提升了模型的性能。

其他有价值的信息

研究还探讨了不同批次大小和图像尺寸对模型性能的影响,发现较小的批次大小(如16)可以提高模型的响应速度,而较大的批次大小(如64)则有助于加快训练收敛。此外,研究使用了Google Colab Pro+平台和NVIDIA Tesla T4 GPU进行模型训练,确保了计算效率和可扩展性。

通过这项研究,Medivision系统为结直肠癌的早期检测和诊断提供了一个强有力的工具,未来有望在临床实践中得到广泛应用。