本文档属于类型a,即单篇原创研究的报告。以下是基于文档内容的学术报告:
主要作者与研究机构
本研究的主要作者包括Qi Bi、Shuang Yu、Wei Ji、Cheng Bian、Lijun Gong、Hanruo Liu、Kai Ma和Yefeng Zheng。他们分别来自腾讯Jarvis实验室(中国深圳)和首都医科大学北京同仁医院。该研究发表于2021年,收录于Springer Nature Switzerland AG出版的MICCAI 2021会议论文集中,具体章节为LNCS 12908,页码55-64。
学术背景
随着全球人口老龄化和增长,视网膜疾病患者数量迅速增加,其中糖尿病视网膜病变(DR)、青光眼和年龄相关性黄斑变性(AMD)是导致中度至重度视力丧失的三大主要原因。预计到2040年,全球将有约2亿人患有DR,1.11亿人患有青光眼,2.88亿人患有AMD。早期筛查和及时治疗对于防止疾病进展和视力丧失至关重要。然而,由于眼科医生和专家的短缺,基于深度学习技术的全自动视网膜疾病筛查方法近年来备受关注。尽管深度学习技术在图像识别方面取得了显著进展,但视网膜图像的低对比度和小尺寸病理区域以及病理区域的分散分布等特点,使得自动识别面临巨大挑战。为此,本研究提出了一种基于局部-全局双感知(Local-Global Dual Perception, LGDP)的深度多实例学习(Multiple Instance Learning, MIL)框架,旨在更好地识别视网膜疾病。
研究流程
本研究主要包括以下几个步骤:
1. 框架设计:提出了一种LGDP深度MIL框架,该框架通过局部金字塔感知模块(Local Pyramid Perception Module, LPPM)和全局感知模块(Global Perception Module, GPM)分别从局部和全局尺度提取实例贡献。LPPM通过滑动窗口从局部尺度选择关键实例,GPM则从全局尺度提供空间权重分布。
2. 实例表示转换:使用CNN骨干网络提取卷积特征后,通过1×1卷积核的过渡层将特征空间转换为实例空间,每个像素被视为一个实例。
3. 局部金字塔感知模块(LPPM):LPPM通过多层金字塔结构从不同局部尺度选择关键实例,并通过滑动窗口操作保留每个通道中前l个最大实例的响应。
4. 全局感知模块(GPM):GPM通过1×1卷积层生成空间权重分布矩阵,从全局视角评估每个实例的相对重要性。
5. 局部-全局感知融合:将LPPM和GPM的输出融合,生成袋(bag)得分分布,并通过softmax激活函数得到最终分类概率。
6. 实验验证:在APTOS、LAG和AMD三个主要视网膜疾病基准数据集上进行了广泛的实验,验证了所提出框架的有效性。
研究对象与样本量
实验使用了三个数据集:APTOS(1857张DR图像和1805张非DR图像)、LAG(1710张青光眼图像和3140张非青光眼图像)以及一个私人AMD数据集(2678张AMD图像和2978张非AMD图像)。所有实验均采用五折交叉验证。
主要结果
1. 消融研究:结果表明,结合LPPM和GPM的LGDP深度MIL框架在所有三个基准数据集上均取得了最佳性能,特别是在识别病理图像方面表现突出。
2. 与其他SOTA方法的比较:LGDP模块在APTOS、LAG和AMD数据集上的表现均优于其他最先进的深度MIL方法,特别是在召回率(recall)方面提升显著。
3. 泛化能力验证:LGDP模块在VGG-16、ResNet-50和Inception等不同CNN骨干网络上的表现均显著提升,证明了其良好的泛化能力。
结论与意义
本研究提出的LGDP深度MIL模块能够从局部和全局尺度同时提取实例贡献,显著提高了视网膜疾病的识别性能。该模块可以方便地嵌入到任何CNN骨干网络中,且具有端到端的可训练性。实验结果表明,该模块在多个基准数据集上均取得了优异的性能,特别是在召回率方面的提升对于临床视网膜疾病筛查具有重要意义。此外,该模块的泛化能力也得到了验证,表明其在不同网络结构下均具有广泛的应用前景。
研究亮点
1. 新颖的局部-全局双感知框架:首次在MIL框架中同时集成局部和全局尺度的实例贡献,显著提升了视网膜疾病的识别性能。
2. 局部金字塔实例选择策略:通过多层金字塔结构和滑动窗口操作,有效挖掘了与袋标签相关的关键实例。
3. 广泛的实验验证:在多个基准数据集和不同CNN骨干网络上验证了所提出模块的有效性和泛化能力。
其他有价值的内容
本研究还提供了详细的实例响应热图可视化,展示了病理区域被模块捕获的情况,进一步验证了所提出方法的有效性。此外,研究还得到了广东省重点领域研发计划和中国科技创新2030项目的资助。