Pré-entraînement géométrique guidé par Lidar pour la détection d'objets 3D centrée sur la vision

Pré-entraînement géométrique guidé par LiDAR pour la détection d’objets 3D centrée sur la vision

Amélioration des performances de la détection d’objets 3D centrée sur la vision grâce à une méthode de pré-entraînement géométrique guidée par LiDAR

Introduction

Ces dernières années, la détection d’objets 3D multi-caméras dans le domaine de la conduite autonome a suscité une attention considérable. Cependant, les méthodes basées sur la vision rencontrent encore des défis pour extraire avec précision les informations géométriques à partir d’images RGB. Les approches existantes utilisent généralement des tâches liées à la profondeur pour pré-entraîner les réseaux d’images afin d’acquérir des informations spatiales, mais ces méthodes négligent l’aspect crucial de la transformation de vue, entraînant ainsi une mauvaise performance due au désalignement des connaissances spatiales entre le réseau d’images et la transformation de vue. Pour résoudre ce problème, cet article propose un nouveau cadre de pré-entraînement sensible à la géométrie appelé GAPretrain.

Source de l’article

Cet article a été rédigé par Linyan Huang, Huijie Wang, Jia Zeng et autres auteurs, issus respectivement du département d’intelligence artificielle de l’université de Xiamen, du laboratoire OpenDriveLab de Shanghai AI Lab et de l’université Jiao Tong de Shanghai. L’article a été publié dans la revue International Journal of Computer Vision, reçu le 13 avril 2023 et accepté le 6 janvier 2025.

Processus de recherche et résultats

Processus de recherche

  1. Représentation BEV unifiée :

    • Afin de combler les écarts entre les différentes vues des capteurs, les chercheurs convertissent les caractéristiques des images et les données de nuages de points en une représentation unifiée en vue de dessus (Bird’s-Eye-View, BEV). Plus précisément, les données de nuages de points sont traitées via un réseau neuronal convolutif clairsemé, puis leur dimension de hauteur est compressée pour former une carte de caractéristiques BEV. En même temps, les images RGB multi-vues sont extraites via un réseau dorsal 2D, puis transformées en une carte de caractéristiques BEV via un module de transformation de vue.
    • Pour aligner les données des deux modalités, les chercheurs ont conçu une opération de normalisation pour normaliser la carte de caractéristiques BEV en calculant les statistiques des canaux de toutes les données d’entraînement.
  2. Pré-entraînement de LiDAR vers caméra :

    • Pendant la phase de pré-entraînement, les chercheurs ont d’abord entraîné le modèle LiDAR sur la tâche de détection d’objets 3D, puis utilisé sa carte de caractéristiques BEV générée comme cible de pré-entraînement. Pour réduire la distribution arbitraire des valeurs des différents canaux, les chercheurs ont normalisé la carte de caractéristiques BEV.
    • Pour mieux aligner les représentations BEV de LiDAR et de la caméra, les chercheurs ont conçu un module de génération de masque guidé par LiDAR. Ce module projette le nuage de points LiDAR sur une grille, calcule le nombre de points dans chaque grille et applique un noyau de lissage gaussien pour densifier la carte d’attention LiDAR. De plus, les chercheurs ont également conçu un module de corrélation géométrique sensible aux cibles qui extrait les caractéristiques des instances et calcule leurs informations géométriques pour transférer les connaissances au niveau des pixels.
  3. Affinage :

    • Pendant la phase d’affinage, les chercheurs ont directement utilisé les paramètres pré-entraînés et n’ont utilisé que des images comme entrée, sans nécessiter de nuages de points LiDAR. Pour garantir que la représentation BEV du modèle de caméra soit cohérente avec celle du modèle LiDAR, les chercheurs ont conçu une architecture de tête de détection identique et ont utilisé les paramètres de la tête LiDAR pendant l’affinage.

Résultats principaux

  • Configuration expérimentale : Les chercheurs ont mené des expériences sur le jeu de données NuScenes, qui contient 1000 scènes de conduite, dont 700 pour l’entraînement, 150 pour la validation et 150 pour les tests. Chaque scène dure environ 20 secondes et est échantillonnée à une fréquence de 2 Hz.
  • Amélioration des performances : Les résultats expérimentaux montrent que la méthode GAPretrain améliore significativement les performances de plusieurs méthodes existantes. Par exemple, lors de l’utilisation de la méthode BEVFormer, GAPretrain atteint 46,2 % de mAP et 55,5 % de NDS sur l’ensemble de validation NuScenes, avec des gains respectifs de 2,7 % et 2,1 %.
  • Expériences d’ablation : Grâce à des expériences d’ablation, les chercheurs ont validé l’efficacité de chaque module. Le module de distillation par pré-entraînement augmente le mAP de 2,4 %, tandis que le module de génération de masque améliore encore la précision de localisation des objets de 5,9 %. Le module de corrélation géométrique sensible aux cibles apporte également un gain de performance de 0,4 % en NDS.

Conclusion

Cette étude propose un nouveau cadre de pré-entraînement sensible à la géométrie appelé GAPretrain, qui guide le processus de pré-entraînement des modèles de caméra en intégrant des informations géométriques riches provenant de LiDAR. Les résultats expérimentaux montrent que cette méthode non seulement améliore les performances des méthodes existantes, mais possède également une bonne capacité de généralisation. Les travaux futurs pourraient explorer davantage comment générer des objectifs de pré-entraînement plus représentatifs et robustes pour améliorer la détection d’objets à grande distance.

Points forts de la recherche

  • Résolution du problème de désalignement des connaissances spatiales dans la transformation de vue : En introduisant la génération de masque guidée par LiDAR et le module de corrélation géométrique sensible aux cibles, la précision des informations spatiales des modèles de caméra est efficacement améliorée.
  • Solution modulaire : La méthode GAPretrain peut être appliquée de manière flexible à divers modèles de caméras multi-vues existants, offrant une excellente généralité.
  • Utilisation complète des données non annotées : Pendant la phase de pré-entraînement, une grande quantité de données non annotées peut être utilisée pour améliorer encore les performances du modèle.

À travers cette recherche, les chercheurs fournissent une stratégie de pré-entraînement efficace pour la détection d’objets 3D basée sur la vision, qui pourrait stimuler le développement des technologies de conduite autonome à l’avenir.