Identifier et affiner de manière adaptative les régions mal posées pour un appariement stéréo précis

Identifier et Optimiser Adaptativement les Régions Mal Posées pour un Appariement Stéréoscopique Précis

Contexte et Motivation de l’Étude

Avec le développement rapide des technologies de vision par ordinateur, la technique d’appariement stéréoscopique joue un rôle crucial dans de nombreux domaines tels que la robotique, l’aérospatiale, la conduite autonome et la fabrication industrielle, en raison de sa haute précision, de son coût-efficacité et de son caractère non invasif. Cependant, lors du traitement des zones d’occultation et des zones floues, la contrainte de cohérence entre les paires de pixels devient peu fiable, ce qui rend difficile l’exploration des liens cachés. Par conséquent, bien que les recherches sur les réseaux de neurones convolutifs (CNN) et basées sur les transformers progressent rapidement, la plupart des méthodes rencontrent encore des limites de performance lors du traitement des zones mal posées. Pour relever ce défi, l’équipe de recherche a introduit un mécanisme d’optimisation des caractéristiques des zones d’erreur afin de fournir des caractéristiques contextuelles, améliorant ainsi l’appariement stéréoscopique dans les zones mal posées. Architecture de l’ERCNet

Source et Introduction de l’Étude

Cet article, intitulé “Adaptively Identify and Refine Ill-Posed Regions for Accurate Stereo Matching”, est coécrit par Changlin Liu, Linjun Sun, Xin Ning et d’autres chercheurs des Instituts de Technologie de Semiconducteurs de l’Académie Chinoise des Sciences et de la Faculté de Science et Technologie des Semiconducteurs de l’Université Normale du Sud de la Chine. Cette recherche sera publiée dans le journal “Neural Networks” en 2024. Le manuscrit a été reçu le 31 octobre 2023, révisé le 26 avril 2024 et accepté le 15 mai 2024.

Processus de Travail de l’Étude

Cette étude comprend plusieurs étapes clés, résumées comme suit :

1. Extraction des Caractéristiques

Une structure semblable à ResNet est utilisée pour extraire des informations multi-échelles à partir d’images RGB. Le processus spécifique est le suivant : les images RGB passent à travers trois couches de convolution avec différentes longueurs d’étape, et les caractéristiques sont réduites à une résolution de 14 et les canaux sont étendus. Ensuite, des caractéristiques d’image (l1, l2, l3, l4) sont générées via des couches ResNet. Ces caractéristiques sont connectées en une carte de caractéristiques de 320 canaux, utilisée par le réseau de prédiction et le module d’optimisation des zones d’erreur.

2. Coût Doublement Contraint en Groupe (DCV)

Pour détecter et optimiser à l’avance les caractéristiques d’appariement, cette étude construit un DCV combinant des contraintes d’image et géométriques. Les étapes spécifiques sont les suivantes :

  • Sélection des Contraintes : Les contraintes de distinction et de corrélation construisent ensemble le DCV. Le coût de distinction utilise la différence absolue, tandis que le coût de corrélation utilise la corrélation croisée normalisée (NCC).
  • Calcul du Coût de Correspondance Multi-échelle : Calcul du produit scalaire des caractéristiques dans la fenêtre de correspondance et utilisation du coût de correspondance des pixels dans les coordonnées de l’ensemble de neuf points comme poids. Enfin, plusieurs convolutions de coût sont fusionnées à travers des couches de convolution 3D.

3. Mécanisme d’Optimisation des Caractéristiques de Zones d’Erreur (EFR)

C’est l’innovation clé de cette étude, le processus spécifique est le suivant :

  • Utiliser la carte de disparité calculée par les coûts avant et arrière via une structure en sablier, si la fluctuation de la disparité dans la zone de coût non agrégée est importante, elle est identifiée comme une zone potentiellement erronée.
  • Concevoir un transformeur pour étendre de manière sélective les caractéristiques des zones mal posées, en ajustant et en supprimant les caractéristiques redondantes par l’intégration d’informations globales.

4. Réseau de Prédiction Principal

Le réseau intègre les coûts de convolution étendus, en calculant la disparité finale via la structure en sablier empilée. Cela comprend quatre couches de convolution 3D, ReLU, normalisation par lot et une petite structure de transformeur. Enfin, une couche de déconvolution 3D et un processus de restauration de la résolution initiale génèrent un volume de probabilité pour calculer la disparité de correspondance.

Principaux Résultats de l’Étude

Vérification Expérimentale

Les résultats expérimentaux sur plusieurs ensembles de données montrent que l’ERCNet performe remarquablement bien sur les ensembles de données Scene Flow, KITTI 2012, KITTI 2015, ETH3D et Middlebury 2014. L’inclusion du DCV et de l’EFR améliore significativement l’exactitude et la robustesse de la correspondance dans les zones mal posées, tout en réduisant efficacement le surapprentissage de texture.

  • Scene Flow : ERCNet atteint une EPE (erreur au point de fin) de 0,45 px, surpassant les autres algorithmes récents à 0,47 px.
  • KITTI 2012 et 2015 : Par rapport aux autres méthodes, ERCNet obtient les meilleurs résultats sur la plupart des métriques, avec des résultats de test de 2020-2024 indiquant son excellente performance dans des scènes complexes.
  • ETH3D et Middlebury 2014 : Les expériences démontrent la haute robustesse et la capacité de généralisation multi-domaine de l’ERCNet.

Solution au Surapprentissage de Texture

Grâce à la combinaison de l’EFR et du DCV, l’étude parvient à atténuer efficacement le problème de surapprentissage dans les zones à haute texture. Sans ajustement, le modèle montre un net avantage via les poids pré-entrainés, prouvant des performances remarquables sur les tests de l’ensemble de données KITTI 2015.

Extraction de la Performance dans les Zones Mal Posées

En extrayant les zones mal posées de différentes scènes, l’étude montre l’avantage du modèle dans les zones à texture répétitive, sans texture et à disparité discontinue. En particulier dans des scènes réelles, les zones mal posées extraites améliorent considérablement la capacité du modèle à s’adapter à des scènes complexes.

Conclusion et Travaux Futurs

Le cadre ERCNet proposé par cette étude améliore efficacement l’appariement stéréoscopique dans les zones mal posées par la reconnaissance des erreurs et l’optimisation des caractéristiques, fournissant davantage de pistes de contrainte et une capacité d’inférence de disparité robuste. Sur plusieurs ensembles de données de référence, l’étude démontre une précision bien supérieure aux méthodes actuelles, prouvant son potentiel dans le traitement des zones mal posées et une excellente généralisation dans de nouvelles scènes. Les travaux futurs viseront à développer un modèle d’appariement stéréoscopique plus léger, à améliorer la capacité de l’algorithme dans des environnements réels et à continuer d’optimiser l’application des perturbations pendant les phases d’agrégation, réduisant la dépendance aux seuils de perturbation fixes pour améliorer la robustesse du modèle et le degré d’automatisation de l’annotation des données dans des scènes plus complexes.