基于扩散模型的特征增强在整张切片图像多实例学习中的应用

基于扩散模型的特征增强:针对全视野病理图像多实例学习的新方法

学术背景与研究动机

在计算病理学(computational pathology)领域,如何有效分析全视野扫描病理图像(Whole Slide Images,WSIs)是当前研究的热点。WSIs 是超高分辨率的图像,通常具有广域的视野,广泛用于癌症诊断。然而,由于病例标记的稀缺性以及图像自身的体量庞大,基于深度学习的多实例学习(Multiple Instance Learning,MIL)在WSI的自动化分析中面临诸多挑战。

MIL 是一种经典的弱监督学习方法,核心思路在于将整个WSI看作一个“袋”级别的实例,而每块小图像(patch)作为单独的“袋中实例”。虽然袋级别的标签已知,但单个实例的标签未知。在 MIL 的应用中,常见的问题包括训练数据不足引发的过拟合以及大量实例引发的计算负担。为了解决这些问题,图像增强成为一条重要路径。然而,传统图像增强方法,如旋转、拉伸等,虽然能一定程度上提高模型的泛化能力,但在处理数万大小图像块时效率低下,且增强后的特征多余信息较多,容易对下游任务造成困扰。

近年来,特征级别的增强框架逐渐崭露头角。相较于图像增强,这类方法直接操作在特征层,省去了重复的图像处理步骤,具有更高的效率。然而,已有的特征增强方法,比如基于 Mixup 的线性特征融合或基于生成对抗网络(Generative Adversarial Networks,GANs)的特征生成,往往缺乏生成多样性或稳定性,从而限制了数据增强的质量和实际效果。扩散模型(Diffusion Model, DM)作为一种新兴的生成模型,因其表现出的多样性和稳定性优势,被认为可以克服这些问题。本研究在 MIL 框架中首次引入扩散模型,提出了一种基于扩散模型的特征增强框架 —— AugDiff,目标是实现更高质量的在线特征增强,并解决现有增强方法的缺陷。

论文来源与作者

本论文由 Zhuchen Shao、Liuxi Dai、Yifeng Wang、Haoqian Wang 和 Yongbing Zhang 撰写,主要作者分属清华大学深圳国际研究生院和哈尔滨工业大学(深圳)。论文发表于 *IEEE Transactions on Artificial Intelligence*,2024年第12期,标题为《AugDiff: Diffusion-Based Feature Augmentation for Multiple Instance Learning in Whole Slide Image》。该研究得到了中国国家重点研发计划及深圳市科技项目的资助,代码已开源于 https://github.com/szc19990412/augdiff

研究方法与流程

研究总体框架:
AugDiff 的核心是利用扩散模型的“逐步生成”特性对特征进行增强,同时保持原始语义信息。AugDiff 的设计包括以下步骤:
1. WSI 分割与特征提取: 将WSI切分为多个patch,并利用预训练特征提取器(如 ResNet18 和 RegNetX)提取patch级别的特征。 2. 扩散模型训练: 通过给予各种增强图像的特征(例如随机旋转、颜色扰动等),训练扩散模型包含特定特征的生成过程。 3. MIL训练集成: 在 MIL 训练过程中,AugDiff 动态生成增强特征,提供给 MIL 模型进行在线学习。

扩散模型的设计:
扩散模型分为两个阶段:正向扩散与逆向扩散。正向扩散通过逐步添加噪声将数据分布转换成高斯分布;逆向扩散则通过去噪网络(denoising autoencoder,DAE)逐步去噪,恢复数据分布。AugDiff 的创新在于利用原始特征作为初始“噪声”,在每次采样迭代中控制语义信息的保留与增强。

关键算法与实现:
AugDiff 的采样过程采用两阶段策略:
- K步扩散: 从原始特征开始逐步添加噪声。 - K步去噪: 基于 DAE 去噪得到增强特征。

此外,AugDiff 使用了多种图像增强手段(例如弹性变换、高斯模糊等)来指导扩散模型的训练。相关算法细节见论文附录,其中的核心公式如扩散训练目标函数:

$$ L{DM} = E{x, \epsilon \sim N(0,1), t} [||\epsilon - \epsilon_{\theta}(x_t, t)||^2] $$

实验设置与数据: 研究在四个不同癌症数据集上进行了评估,包括前列腺癌(SICAPv2)、结直肠癌(Unitopatho)、胰腺癌(TMAS)和乳腺癌(Camelyon16)。实验中使用两种特征提取器和三种主流 MIL 算法(AMIL, LossAttn, DSMIL),验证了 AugDiff 的适用性和稳定性。

研究结果与分析

1. 性能改进:
实验结果表明,AugDiff 较其他方法在不同数据集上都取得了显著提升。例如,在前列腺癌数据集(SICAPv2, ResNet18)上,AugDiff 的平均 AUC 达到 0.749,比无特征增强提升约4%。

2. 时间与效率:
AugDiff 的在线特征增强显著减少了传统图像增强的时间成本。在 10 倍放大倍率的 WSI 中,AugDiff 比图像增强快 30 倍以上,且内存使用更为高效,其轻量化的设计使其适用于更高分辨率的 WSI。

3. 多样性与质量:
AugDiff 生成的增强特征更接近实际数据分布,避免了 GAN 模型容易产生不稳定特征的问题,可视化结果(通过 UMAP 降维)验证了 AugDiff 的增强样本分布合理性。

4. 泛化能力:
通过跨数据集测试发现,AugDiff 预训练模型在外部数据集上的表现均超过传统图像增强方法。例如,在 Unitopatho 数据集上,AugDiff 的平均 AUC 达到 0.911,高于多个特征增强和图像增强方法。

研究意义与展望

AugDiff 的提出在多个方面推动了 MIL 和 WSI 自动化分析的研究进展:
1. 科学意义:首次通过扩散模型在 MIL 中实现特征增强,证明了扩散模型在计算病理学领域的适用性,其特征增强框架为稀缺病理数据的建模提供了新思路。 2. 应用价值:AugDiff 以更高效的在线方式实现增强,对于需要快速生成更多数据的任务(如癌症诊断中的稀有病种分析)具有重要意义。 3. 未来方向:AugDiff 框架未来可扩展至半监督学习或极端高分辨率的 WSI 数据集。此外,对于控制增强过程的灵活性、增强与原始特征的映射关系等问题,未来亦有进一步优化的空间。

AugDiff 为MIL框架下的WSI分析提供了一种高效、稳定的新型特征增强方法,不仅在理论上具有创新性,在实践应用中也展现了巨大潜力。