AugDiff : Augmentation de caractéristiques basée sur la diffusion pour l'apprentissage multi-instances dans les images de lame entière

Augmentation Basée sur les Modèles de Diffusion : Une Nouvelle Approche pour l’Apprentissage Multi-Instances sur des Images Entières en Pathologie

Contexte Scientifique et Motivation

Dans le domaine de la pathologie computationnelle (computational pathology), l’analyse efficace des images entières de lames histopathologiques (Whole Slide Images, WSIs) est un sujet de recherche majeur. Ces WSIs, des images ultra-haute résolution, offrent une vue très étendue et sont largement utilisées pour le diagnostic du cancer. Cependant, en raison de la rareté des annotations et de la taille énorme des images, l’apprentissage multi-instances (Multiple Instance Learning, MIL), utilisé pour l’analyse automatisée des WSIs, est confronté à de nombreux défis.

Le MIL, méthode classique d’apprentissage faiblement supervisé, considère une WSI comme un “sac” tandis que ses petites sous-images (patches) sont traitées comme des “instances”. Bien que l’étiquette au niveau du sac soit connue, les étiquettes des instances individuelles ne le sont pas. Parmi les défis rencontrés par les applications MIL figurent la limitation des données d’entraînement, qui conduit à un surapprentissage, et la lourdeur des calculs en raison de l’énorme quantité d’instances. Pour résoudre ces problèmes, des approches d’augmentation des données se révèlent prometteuses. Toutefois, les méthodes traditionnelles d’augmentation d’images, comme les rotations ou les étirements, bien qu’utiles pour améliorer la généralisation des modèles, restent peu efficaces face aux WSIs constituées de milliers de patches. Ces méthodes produisent souvent des informations redondantes et non pertinentes, compliquant les tâches d’apprentissage.

Récemment, les cadres basés sur l’augmentation des caractéristiques au lieu des images ont émergé comme une solution prometteuse. Contrairement aux méthodes d’augmentation d’images, ces approches opèrent directement sur des représentations au niveau des caractéristiques, éliminant ainsi la nécessité d’opérations répétitives sur les images et offrant une meilleure efficacité. Cependant, les méthodes existantes d’augmentation de caractéristiques, telles que le mixup (fusion linéaire) ou les réseaux antagonistes génératifs (Generative Adversarial Networks, GANs), manquent souvent de diversité générationnelle ou de stabilité, ce qui limite la qualité et l’efficacité de l’augmentation. Les modèles de diffusion (Diffusion Models, DM), reconnus pour leur capacité à générer de la diversité avec une stabilité accrue, apparaissent comme une solution élégante à ces défis. Dans cette étude, un DM est intégré pour la première fois dans le cadre MIL, et un nouveau cadre basé sur l’augmentation des caractéristiques, baptisé AugDiff, est proposé. Ce dernier vise à surmonter les lacunes des techniques existantes en assurant une augmentation en temps réel et de haute qualité des caractéristiques.

Origine et Auteurs de l’Étude

Cet article a été écrit par Zhuchen Shao, Liuxi Dai, Yifeng Wang, Haoqian Wang et Yongbing Zhang. Les auteurs sont rattachés au campus international de Shenzhen de l’Université Tsinghua et à l’Institut de Technologie de Harbin (Shenzhen). Publié dans IEEE Transactions on Artificial Intelligence (volume 5, numéro 12, 2024), l’article est intitulé AugDiff: Diffusion-Based Feature Augmentation for Multiple Instance Learning in Whole Slide Image. L’étude est financée par des programmes de recherche nationaux chinois, ainsi que par des projets scientifiques et technologiques de Shenzhen. Le code du projet est disponible sur https://github.com/szc19990412/augdiff.

Méthodologie et Approche

Structure Générale de l’Étude :
Le cœur d’AugDiff repose sur l’utilisation des propriétés de génération pas à pas des modèles de diffusion pour permettre une augmentation des caractéristiques tout en préservant l’information sémantique. Sa conception suit plusieurs étapes clés :
1. Division et Extraction de Caractéristiques WSI : Les WSIs sont divisées en plusieurs patches, dont les caractéristiques sont extraites à l’aide d’extracteurs de caractéristiques pré-entraînés (comme ResNet18 ou RegNetX).
2. Entraînement du Modèle de Diffusion : Le modèle est entraîné sur des caractéristiques dérivées de WSIs augmentées par diverses transformations (par ex. déformations aléatoires, floutage gaussien).
3. Intégration dans le Cadre MIL : Pendant l’entraînement MIL, AugDiff génère dynamiquement des caractéristiques augmentées, utilisées par les modèles MIL pour un apprentissage en ligne.

Conception du Modèle de Diffusion :
Le processus de diffusion se divise en deux étapes : diffusion avant et diffusion arrière (inverse). Pendant la diffusion avant, du bruit gaussien est ajouté progressivement aux données, amenant leurs distributions vers une distribution gaussienne. La diffusion inverse consiste à inverser ce processus à l’aide d’un autoencodeur de débruitage (denoising autoencoder, DAE). La proposition novatrice d’AugDiff réside dans l’utilisation des caractéristiques originales comme point de départ dans le processus inverse, permettant un contrôle précis sur la quantité d’information sémantique préservée lors de l’augmentation.

Algorithme Clé et Implémentation :
L’algorithme AugDiff repose sur une approche en deux phases pour générer des augmentations :
- K-étapes de Diffusion : Un bruit est ajouté aux caractéristiques originales à chaque étape.
- K-étapes de Débruitage : Une version augmentée des caractéristiques est obtenue en réduisant progressivement le bruit.

De plus, AugDiff utilise des techniques d’augmentation des images (par exemple rotation, flou, transformations de couleur) pour guider l’entraînement des DM, selon la formule d’optimisation suivante :

$$ L{DM} = E{x, \epsilon \sim N(0,1), t} [||\epsilon - \epsilon_{\theta}(x_t, t)||^2] $$

Résultats Expérimentaux et Analyse

1. Amélioration des Performances :
Les résultats montrent que, comparé aux méthodes existantes, AugDiff améliore systématiquement les performances sur différents ensembles de données. Par exemple, sur le jeu de données prostate SICAPv2 (ResNet18), AugDiff a atteint une AUC moyenne de 0,749, soit une augmentation de 4 % par rapport à une absence d’augmentation.

2. Efficacité en Temps :
AugDiff est 30 fois plus rapide que les cadres traditionnels d’augmentation des images tout en nécessitant moins de ressources mémoire, ce qui le rend adapté aux WSIs de très haute résolution.

3. Diversité et Qualité Supérieure :
Les caractéristiques augmentées par AugDiff reflètent mieux la distribution des données réelles, surmontant les problèmes de GAN qui produisent souvent des échantillons moins réalistes. Les visualisations UMAP montrent que les caractéristiques générées par AugDiff couvrent des espaces de distribution de données plus significatifs.

4. Généralisation Accrue :
Lors de tests croisés entre différents ensembles de données, les modèles pré-entraînés AugDiff ont montré de meilleures performances que les méthodes basées sur l’augmentation des images. AugDiff, formé sur le jeu de données SICAPv2, s’est particulièrement bien généralisé à d’autres jeux de données en raison de sa capacité à apprendre des cartes d’amélioration spécifiques plutôt qu’une distribution stricte des données.

Implications et Perspectives Futures

L’introduction d’AugDiff marque une avancée dans plusieurs domaines :
1. Signification Scientifique : En intégrant pour la première fois les DM dans MIL, AugDiff démontre le potentiel des modèles de diffusion dans la pathologie computationnelle, surtout pour des données rares.
2. Applications Pratiques : Sa méthode d’augmentation des caractéristiques en ligne est particulièrement bénéfique pour les diagnostics nécessitant des ensembles d’entraînement étendus.
3. Champs d’Amélioration : Des recherches futures pourraient explorer comment mieux contrôler la génération conditionnelle et optimiser AugDiff pour des scénarios supplémentaires, tels que des WSI ultra-haute résolution ou des analyses au niveau des patients.

En conclusion, AugDiff établit une méthode significative pour surmonter les limites des cadres traditionnels MIL et a le potentiel d’améliorer considérablement les performances dans les tâches d’analyse automatisée de WSIs.