本文档属于类型a,即单篇原创研究的报告。以下是针对该研究的学术报告:
主要作者及研究机构
本研究由Yaoming Yang、Zhili Cai、Shuxia Qiu和Peng Xu共同完成,研究机构为中国计量大学(China Jiliang University)科学学院及浙江省智能制造质量大数据追溯与分析重点实验室。该研究于2024年1月8日发表在期刊*IEEE Access*上,文章标题为“A Novel Transformer Model with Multiple Instance Learning for Diabetic Retinopathy Classification”。
学术背景
糖尿病视网膜病变(Diabetic Retinopathy, DR)是一种由糖尿病引起的不可逆性视网膜血管病变,是全球劳动年龄人群中致盲的主要原因之一。早期检测和治疗对于保护患者视力至关重要。近年来,基于深度学习的自动化DR诊断系统显著缩短了诊断时间。传统的卷积神经网络(Convolutional Neural Network, CNN)在DR检测和分类中取得了成功,但Transformer模型在自然图像处理中表现出更优越的性能。然而,Transformer通常需要大量数据进行预训练,而医学图像的获取和标注成本较高,数据集规模有限。此外,Transformer模型的输入图像分辨率通常限制在224×224,而眼底相机拍摄的视网膜图像分辨率远高于此,直接降低分辨率会导致有价值的信息丢失。因此,本研究提出了一种基于多实例学习(Multiple Instance Learning, MIL)的新型Transformer模型(TMIL),旨在高效利用高分辨率视网膜图像进行DR分类。
研究流程
本研究主要包括以下几个步骤:
1. 图像预处理:将高分辨率视网膜图像分割为224×224的非重叠图像块(实例)。这些图像块被视为“袋子”(bag),每个袋子包含多个实例。
2. 特征提取:使用Vision Transformer(ViT)从每个实例中提取特征。ViT模型基于ViT-small架构,包含12个Transformer块,每个块的嵌入向量维度为384。
3. 全局实例计算块(GICB)设计:设计GICB模块,用于计算不同实例之间的特征关系,并引入全局信息。GICB由一个LayerNorm层、多头自注意力机制(Multi-Head Self-Attention, MHSA)和一个单层全连接层组成。
4. 分类输出:将GICB计算的全局特征输入到多层感知机(MLP)中,生成最终的分类结果。
研究对象及样本量
研究使用了两个公开的眼底图像数据集:APTOS和Messidor-1。APTOS数据集包含3,662张带有DR病变分级的彩色眼底图像,分为五类;Messidor-1数据集包含1,200张彩色眼底图像,分为四类。由于Messidor-1数据集中某些类别的样本量不足,研究将其简化为二分类任务(正常样本和可参考DR样本)。
实验结果
1. APTOS数据集:TMIL模型在五分类任务中取得了平均准确率85.6%、平均AUC(Area Under Curve)95.6%、平均Kappa分数91.5%和平均敏感性73.7%的优异表现。与直接将高分辨率图像输入ViT相比,TMIL显著减少了62%的推理时间。
2. Messidor-1数据集:在二分类任务中,TMIL模型的平均准确率达到93.1%,平均AUC为97.4%,平均敏感性为86.9%。这些结果均优于直接使用ViT模型的表现。
结论及意义
本研究提出的TMIL模型通过多实例学习策略,成功解决了高分辨率医学图像在Transformer模型中的应用难题。TMIL不仅显著提高了DR分类的准确性,还大幅减少了推理时间,为快速筛查DR患者提供了重要技术支持。此外,TMIL模型避免了因图像压缩导致的信息丢失,充分利用了高分辨率图像中的病变细节,为医学图像分类领域提供了新的研究思路。
研究亮点
1. 创新性:首次将多实例学习与Transformer模型结合,提出了TMIL模型,解决了高分辨率医学图像在Transformer中的应用问题。
2. 高效性:通过分割高分辨率图像为多个实例,显著减少了Transformer的计算复杂度,推理时间减少了62%。
3. 优越性能:在APTOS和Messidor-1数据集上的实验结果表明,TMIL在DR分类任务中超越了现有的最先进方法。
其他有价值内容
本研究还详细分析了不同版本TMIL模型的性能差异,并探讨了引入位置嵌入和残差连接对模型性能的提升作用。此外,研究代码已公开在GitHub上,便于其他研究者复现和改进。
以上报告详细介绍了该研究的背景、方法、实验结果及其意义,为相关领域的研究者提供了全面的参考。