CANet:Réseau stéréo multi-vues conscient du contexte pour une estimation efficace de la profondeur préservant les bords

Contexte académique et problématique

La vision stéréo multi-vues (Multi-View Stereo, MVS) est une tâche fondamentale en vision par ordinateur 3D, visant à reconstruire la géométrie 3D d’une scène à partir de plusieurs images prises sous différents angles. Cette technologie trouve des applications dans des domaines variés tels que la robotique, la compréhension de scènes et la réalité augmentée. Ces dernières années, les méthodes basées sur l’apprentissage profond ont fait des progrès significatifs grâce à l’utilisation de cadres d’estimation de profondeur allant du grossier au fin. Cependant, les méthodes existantes rencontrent encore des difficultés pour estimer la profondeur dans des zones sans texture, aux limites des objets et dans des structures fines, principalement en raison de la faible distinction des indices de correspondance dans les régions à faible texture, des propriétés lissantes inhérentes aux réseaux de neurones convolutifs 3D (3D CNN) utilisés pour la régularisation des volumes de coût, et de la perte d’information des caractéristiques à l’échelle la plus grossière.

Pour résoudre ces problèmes, cet article propose un réseau stéréo multi-vues contextuel (Context-Aware Multi-View Stereo Network, CANet), qui exploite les informations contextuelles des images pour réaliser une estimation de profondeur préservant les bords de manière efficace. En introduisant un module d’agrégation de coût par attention à la similarité (Self-Similarity Attended Cost Aggregation, SAA), CANet est capable de modéliser les dépendances à long terme dans le volume de coût, améliorant ainsi la capacité de correspondance dans les régions sans texture. De plus, grâce à un module d’apprentissage résiduel hiérarchique préservant les bords (Hierarchical Edge-Preserving Residual Learning, HEPR), CANet affine progressivement l’estimation de la profondeur à plusieurs échelles, aboutissant à une estimation fine de la profondeur au niveau des bords. Pour enrichir les caractéristiques à l’échelle la plus grossière, CANet introduit également un module de sélection focale (Focal Selection Module, FSM), qui améliore la récupération de la profondeur initiale en capturant des détails tels que les structures fines.

Origine de l’article et informations sur les auteurs

Cet article a été rédigé par Wanjuan Su et Wenbing Tao, tous deux affiliés au Laboratoire national clé de science et technologie sur le traitement de l’information multispectrale, École d’intelligence artificielle et d’automatisation, Université des sciences et technologies de Huazhong. L’article a été soumis le 5 mai 2024, accepté le 17 décembre 2024, et publié en 2025 dans le International Journal of Computer Vision.

Processus de recherche et conception expérimentale

1. Processus de recherche

Le processus de recherche de CANet comprend les étapes suivantes :

1.1 Extraction de caractéristiques multi-échelles

CANet commence par extraire des caractéristiques multi-échelles des images d’entrée via un réseau d’extraction de caractéristiques multi-échelles focalisé (Focal-Aware Multi-Scale Feature Extraction Network). Ce réseau, basé sur UNet, intègre un module de sélection focale (FSM) pour améliorer l’expressivité des caractéristiques à l’échelle la plus grossière. Le FSM fusionne les caractéristiques d’échelles plus fines provenant de l’encodeur et effectue une sélection focale à la fois sur les canaux et les dimensions spatiales, renforçant ainsi les réponses dans les régions clés.

1.2 Agrégation de coût par attention à la similarité (SAA)

Pour résoudre le problème de correspondance dans les régions sans texture, CANet introduit un module d’agrégation de coût par attention à la similarité (SAA). Ce module utilise un mécanisme d’attention efficace pour extraire les informations de similarité de la vue de référence et les utilise pour guider l’agrégation du volume de coût. Concrètement, le module SAA calcule d’abord les poids de similarité via un mécanisme d’attention par covariance croisée, puis applique ces poids au volume de coût brut pour générer un volume de coût enrichi en contexte.

1.3 Apprentissage résiduel hiérarchique préservant les bords (HEPR)

Pour préserver les informations de bord dans l’estimation de la profondeur, CANet conçoit un module d’apprentissage résiduel hiérarchique préservant les bords (HEPR). Ce module apprend progressivement des cartes résiduelles de profondeur, intégrant des détails haute fréquence dans les cartes de profondeur prédites par le réseau principal, permettant ainsi un suréchantillonnage préservant les bords et un affinement de la profondeur. Le module HEPR effectue à la fois l’affinement et le suréchantillonnage de la profondeur aux étapes intermédiaires de la pyramide, évitant les limitations des méthodes traditionnelles qui ne font qu’affiner ou suréchantillonner la carte de profondeur finale.

1.4 Cadre en cascade léger

Afin de maintenir des performances élevées tout en réduisant la consommation de ressources de calcul, CANet adopte un cadre en cascade léger. Ce cadre empile deux étapes à la même résolution et maximise l’échantillonnage des hypothèses de profondeur à basse résolution, réduisant ainsi considérablement la consommation de mémoire et de temps d’exécution sans sacrifier l’échantillonnage fin de la profondeur ni la taille du réseau de régularisation du volume de coût.

2. Résultats expérimentaux

2.1 Résultats principaux

CANet a été testé sur plusieurs ensembles de données de référence MVS, montrant des performances exceptionnelles en termes de qualité de reconstruction et d’efficacité. En particulier, sur les ensembles de données Tanks and Temples Advanced et ETH3D High-Res, CANet se classe premier parmi toutes les méthodes basées sur l’apprentissage publiées. Concrètement, CANet réduit la consommation de mémoire GPU et le temps d’exécution de 78,49 % et 57,35 % respectivement, tout en atteignant une qualité de reconstruction comparable aux méthodes les plus avancées.

2.2 Conclusions et implications

Les principales contributions de CANet incluent : 1. La proposition d’un nouveau réseau stéréo multi-vues contextuel, exploitant pleinement les informations contextuelles des images pour une estimation de profondeur de haute qualité préservant les bords, avec une consommation de mémoire et de temps d’exécution réduite. 2. La conception d’un module d’agrégation de coût par attention à la similarité, guidant l’agrégation du volume de coût grâce à des informations contextuelles globales, améliorant ainsi la correspondance dans les régions sans texture. 3. L’introduction d’un module d’apprentissage résiduel hiérarchique préservant les bords, permettant un suréchantillonnage de la profondeur sans flou. 4. Le développement d’un module de sélection focale, permettant aux caractéristiques à l’échelle la plus grossière de se concentrer davantage sur les régions importantes, produisant ainsi une meilleure profondeur initiale.

Points forts de la recherche

  1. Innovation : CANet introduit des modules innovants tels que l’agrégation de coût par attention à la similarité et l’apprentissage résiduel hiérarchique préservant les bords, améliorant significativement la précision de l’estimation de la profondeur dans les régions sans texture et aux bords des objets.
  2. Efficacité : Grâce à son cadre en cascade léger, CANet maintient des performances élevées tout en réduisant considérablement la consommation de ressources de calcul.
  3. Applicabilité large : CANet démontre des performances exceptionnelles sur plusieurs ensembles de données de référence, en particulier dans des scènes complexes comme Tanks and Temples et ETH3D, montrant une forte capacité de généralisation.

Conclusion

CANet propose une méthode efficace et précise pour l’estimation de la profondeur stéréo multi-vues en combinant des informations contextuelles, un mécanisme d’attention à la similarité et un apprentissage résiduel préservant les bords. Cette méthode atteint des performances de pointe sur plusieurs ensembles de données de référence tout en étant économe en ressources de calcul, offrant ainsi une nouvelle solution pour le domaine de la reconstruction 3D.