本文介绍了一项由Fangxin Shang、Jie Fu、Yehui Yang、Haifeng Huang、Junwei Liu和Lei Ma等人共同完成的研究,题为《SynFundus-1M: A High-Quality Million-Scale Synthetic Fundus Images Dataset with Fifteen Types of Annotation》。该研究由百度医疗健康组、香港科技大学和北京大学的研究人员合作完成,并于2024年3月14日发布在arXiv预印本平台上。该研究的主要贡献是发布了SynFundus-1M,一个包含超过一百万张合成眼底图像的高质量数据集,涵盖了11种疾病类型和4种可读性标签。这是目前规模最大、注释最复杂的眼底图像数据集。
眼底成像是早期检测和准确治疗眼疾的重要基础,能够显著改善患者预后并提高眼科护理效率。近年来,深度学习技术在眼底图像自动分析中的应用取得了显著进展。然而,深度学习模型的性能高度依赖于训练数据的数量和质量。尽管已有一些开源的眼底图像数据集,但这些数据集在图像数量或注释类别上存在局限性。例如,当前最大的眼底图像数据集AIROGS仅针对青光眼分类进行注释,而常用的EyePACS数据集仅包含糖尿病视网膜病变的分级注释。
在医学影像领域,获取高质量的训练数据面临隐私问题和注释成本的挑战。因此,尽管有许多开源医学影像数据集,大多数数据集在平衡数量与高质量注释的多样性方面存在困难。为了解决这一问题,一些研究者开始使用合成数据来增强模型性能。近年来,扩散模型(Diffusion Models)在多种应用中超越了传统的生成对抗网络(GANs)方法。受此启发,本研究训练了一个去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM),命名为SynFundus-Generator,并生成了超过一百万张合成眼底图像,构成了SynFundus-1M数据集。
SynFundus-Generator的训练数据基于以下两个关键支柱: 1. 真实图像的数量和多样性:研究团队使用了一个包含超过130万张真实眼底图像的私有数据集,这些图像涵盖了多种视网膜疾病,并在不同的临床场景下拍摄,包括健康检查、门诊和住院等场景。 2. 可靠的注释:研究团队开发了一个AI辅助的眼底分析系统,并获得了国家药品监督管理局(NMPA)的三类医疗器械认证。该系统能够对眼底图像进行11种疾病分类和4种可读性标签的注释。通过这些高质量的注释,研究团队开发了多个用于疾病和图像可读性分类的模型,并在实际应用中验证了其性能。
SynFundus-Generator的训练过程分为两个阶段: 1. 变分自编码器(VAE)阶段:首先训练一个VAE模型,将输入的RGB图像压缩到8倍的潜在空间(64x64),以提取眼底图像的最相关视觉表示。 2. 扩散阶段:将VAE编码器生成的潜在代码输入扩散模型,通过U-Net模型估计每一步添加的噪声,并在特定条件下对噪声进行去噪。最终,去噪后的潜在代码通过VAE解码器生成合成图像。
SynFundus-1M数据集由SynFundus-Generator生成,包含11种疾病和4种可读性标签。为了增加疾病阳性样本的比例,研究团队手动减少了仅包含阴性标签的样本数量。所有合成图像通过AI诊断平台自动注释,生成了最终的注释分布。
通过人类注释者和Fréchet Inception Distance(FID)指标评估合成图像的真实性。实验结果表明,经验丰富的注释者难以区分合成图像与真实图像,且合成图像中的疾病相关视觉特征也得到了良好模拟。FID分数显示,SynFundus-1M与真实数据集的差异与真实数据集之间的差异相当。
实验表明,使用SynFundus-1M进行微调或预训练的模型在糖尿病视网膜病变分级和青光眼诊断任务中表现优异。无论是卷积神经网络(CNN)还是视觉Transformer(ViT)架构,模型在使用SynFundus-1M后均表现出更高的性能和更快的收敛速度。
与在ImageNet上预训练的模型相比,使用SynFundus-1M预训练的模型在下游任务中表现更优,且收敛速度更快。
SynFundus-1M是一个高质量、大规模的合成眼底图像数据集,能够显著提升深度学习模型在眼底疾病分析中的性能。该数据集的发布为视网膜疾病诊断的进步铺平了道路,并提供了在确保数据隐私的同时开源高质量数据的新方法。
SynFundus-1M的发布为眼底图像分析领域的研究提供了宝贵的数据资源,推动了深度学习模型在眼底疾病诊断中的应用。同时,该研究也为在保护数据隐私的前提下生成高质量医学影像数据提供了新的思路。