DiffuVolume : Modèle de diffusion pour l'appariement stéréo basé sur le volume

DiffuVolume - Une nouvelle méthode de stéréo matching basée sur le modèle de diffusion

Contexte de recherche et problématique

Le stéréo matching (Stereo Matching) est une tâche essentielle dans le domaine de la vision par ordinateur, avec des applications largement répandues dans les domaines de la conduite autonome et de la navigation robotique. Son objectif principal est de générer une carte de disparité dense (Disparity Map) à partir d’une paire d’images stéréo corrigées. Récemment, les méthodes basées sur le volume de coût (Cost Volume) ont connu un grand succès dans le stéréo matching. Le volume de coût agrège les informations géométriques des caractéristiques des images gauche et droite, offrant ainsi un contexte riche pour la prédiction de la disparité. Cependant, le volume de coût contient une grande quantité d’informations redondantes, qui non seulement perturbent l’entraînement du modèle, mais limitent également l’amélioration des performances.

Face à ce problème, les chercheurs ont tenté d’optimiser la conception du volume de coût sous plusieurs angles, comme l’amélioration des réseaux d’extraction de caractéristiques ou la conception de modules d’agrégation de coûts plus efficaces. Cependant, ces méthodes ignorent souvent le filtrage des informations redondantes dans le volume de coût. Bien que quelques études aient introduit des mécanismes d’attention pour filtrer les informations utiles dans le volume de coût, ces approches nécessitent généralement un processus d’entraînement complexe en plusieurs étapes, avec un coût de calcul élevé.

Dans ce contexte, Dian Zheng et al. ont proposé DiffuVolume, une méthode de filtrage du volume de coût basée sur un modèle de diffusion (Diffusion Model). Cette méthode intègre le modèle de diffusion dans la tâche de stéréo matching, éliminant de manière récursive les informations redondantes dans le volume de coût, tout en réalisant une précision plus élevée et une empreinte paramétrique réduite.


Origine de l’article et informations sur les auteurs

Cet article, intitulé “DiffuVolume: Diffusion Model for Volume Based Stereo Matching”, a été réalisé par Dian Zheng, Xiao-Ming Wu, Zuhao Liu, Jingke Meng et Wei-Shi Zheng de l’École d’informatique et d’ingénierie de l’Université Sun Yat-sen, Wei-Shi Zheng étant l’auteur correspondant. L’article a été accepté le 14 janvier 2025 et publié dans la revue de premier plan “International Journal of Computer Vision”, avec le DOI : 10.1007/s11263-025-02362-1.


Détails de la recherche et flux de travail

a) Flux de travail de la recherche

1. Extraction de caractéristiques

La recherche commence par utiliser un réseau convolutif ResNet-like partagé pour extraire les caractéristiques des images gauche et droite, générant deux cartes de caractéristiques unaires (Unary Feature Maps) de 320 canaux, notées $F_l$ et $F_r$, de dimensions $320 \times H/4 \times W/4$. Le sous-échantillonnage est induit par l’opération de convolution.

2. Construction du volume de coût

À partir des cartes de caractéristiques extraites, la recherche construit un volume de coût de base (Base Cost Volume). Plus précisément, deux formes courantes de volumes de coût sont utilisées : le volume de concaténation 4D (Concatenation Volume) et le volume de corrélation 3D (Correlation Volume). Ces deux types de volumes fusionnent les informations géométriques de différentes manières, formant ainsi le volume de coût de base.

3. Filtrage par diffusion

Cette étape constitue le cœur de DiffuVolume. La recherche intègre le modèle de diffusion dans le volume de coût, conçant un filtre de diffusion de type attention (Attention-like Diffusion Filter). L’initialisation du filtre de diffusion se base sur la discrétisation de la carte de disparité, selon la formule suivante : $$ dv0(d/4, x, y) = discretize(d{gt}(x, y)), $$ où $d_{gt}$ représente la valeur de disparité réelle, et $d$ la valeur maximale de disparité (192 lors de l’entraînement). Le processus de diffusion est réalisé par la formule suivante : $$ dv_t = \sqrt{\alpha_t} dv_0 + \sqrt{1 - \alpha_t}\epsilon, $$ où $\alpha_t$ est le coefficient de bruit et $\epsilon$ le bruit gaussien ajouté.

4. Filtrage du volume de coût

À chaque étape de diffusion, la recherche sélectionne aléatoirement un pas temporel $t$ et multiplie le filtre de diffusion correspondant avec le volume de coût de base, selon la formule suivante : $$ c{flt} = c{base} \odot (dvt + mlp(t)), $$ où $c{flt}$ est le volume de coût filtré, et $mlp(t)$ une couche entièrement connectée capturant les informations de séquence temporelle.

5. Agrégation des coûts et régression de la disparité

Le volume de coût filtré est ensuite transmis au module d’agrégation des coûts, composé de plusieurs réseaux en forme de sablier 3D empilés, qui agrègent les informations à différents niveaux de disparité. Enfin, une convolution 3D et une fonction Softmax génèrent un volume de probabilité, qui est pondéré pour obtenir la carte de disparité finale.


b) Principaux résultats de la recherche

1. Efficacité du filtrage du volume de coût

La recherche valide l’efficacité de DiffuVolume à travers l’entropie de l’information (Information Entropy). Les expériences montrent qu’avec l’augmentation des itérations, le filtre de diffusion transforme progressivement le vecteur de probabilité en une distribution unimodale, réduisant significativement l’entropie de l’information. Cela démontre que DiffuVolume peut éliminer efficacement les informations redondantes tout en conservant les informations géométriques utiles.

2. Amélioration des performances

La recherche a effectué des expériences sur plusieurs ensembles de données publics, notamment Scene Flow, KITTI2012, KITTI2015, Middlebury et ETH3D. Les résultats montrent que DiffuVolume atteint des performances de pointe sur tous les ensembles de données. Par exemple, sur l’ensemble de données Scene Flow, l’EPE (End-Point Error) de DiffuVolume n’est que de 0,46, surpassant ACVNet (0,48) ; sur KITTI2012 et KITTI2015, DiffuVolume se classe respectivement premier et deuxième.

3. Caractère plug-and-play

DiffuVolume est un module léger de type plug-and-play qui peut être intégré dans n’importe quel réseau de stéréo matching basé sur le volume de coût, ne nécessitant qu’une augmentation de 2 % des paramètres. Par exemple, lorsqu’il est intégré dans Fast-ACVNet, DiffuVolume améliore non seulement les performances, mais maintient également un temps d’inférence similaire.

4. Capacité de généralisation zero-shot

La recherche a également testé la capacité de généralisation zero-shot de DiffuVolume sur des scènes inconnues. Les résultats montrent que RAFT-Stereo intégrant DiffuVolume offre des performances exceptionnelles sur les ensembles de données KITTI, ETH3D et Middlebury, notamment dans les régions des bords et des détails, surpassant d’autres méthodes.


Conclusion et signification

Valeur scientifique

DiffuVolume applique pour la première fois un modèle de diffusion à la tâche de stéréo matching, proposant une nouvelle méthode de conception de modules spécifiques aux tâches. En transformant l’objectif de diffusion d’images en un filtre de diffusion de type attention, la recherche résout avec succès le problème des informations redondantes dans le volume de coût.

Valeur applicative

DiffuVolume présente une large gamme d’applications potentielles, en particulier dans les tâches de stéréo matching en temps réel. Sa nature plug-and-play et son faible coût en paramètres le rendent particulièrement adapté au déploiement sur des appareils à ressources limitées.


Points forts de la recherche

  1. Innovation : DiffuVolume applique pour la première fois un modèle de diffusion intégralement dans la tâche de stéréo matching, évitant les méthodes traditionnelles consistant à ajouter directement du bruit aux images.
  2. Efficacité : Comparé aux modèles de diffusion traditionnels, DiffuVolume accélère le processus d’inférence de 240 fois tout en réduisant la taille des paramètres de 7 fois (de 60M à 7M).
  3. Généralité : DiffuVolume peut être facilement intégré dans n’importe quel réseau de stéréo matching basé sur le volume de coût, améliorant considérablement les performances.
  4. Robustesse : DiffuVolume se distingue particulièrement dans les scènes complexes, telles que les zones sans texture et les bords.

Autres informations précieuses

L’article explore également la valeur potentielle des modèles de diffusion dans les tâches de prédiction dense. La recherche souligne que les modèles de diffusion peuvent être intégrés dans diverses tâches de vision par ordinateur grâce à la conception de modules spécifiques aux tâches, avec un faible coût en paramètres. De plus, l’étude met en avant l’importance de l’idée d’optimisation itérative, offrant ainsi de nouvelles perspectives pour les recherches futures.