Un réseau de localisation sémantique visuelle de bout en bout utilisant des images multi-vues

Une étude sur la localisation sémantique visuelle de bout en bout basée sur des images multi-vues

Contexte et importance de la recherche

Avec le développement rapide des technologies de conduite intelligente, la capacité de localisation précise des véhicules autonomes est devenue un sujet de grande attention dans le domaine de la recherche et de l’industrie. Une localisation précise des véhicules est non seulement un module central des systèmes de conduite autonome, mais également un élément clé des systèmes avancés d’assistance à la conduite (ADAS). Les méthodes traditionnelles de localisation visuelle basées sur des modèles géométriques nécessitent souvent des ajustements complexes de paramètres, ce qui limite leur robustesse et leur capacité à être déployées à grande échelle dans des environnements complexes. De plus, les méthodes de détection de caractéristiques traditionnelles (telles que SIFT - Scale-Invariant Feature Transform, SURF - Speeded-Up Robust Features, ORB - Oriented FAST and Rotated Brief) sont limitées dans des environnements dynamiques, affectées par des changements de conditions météorologiques ou d’éclairage.

Récemment, les cartes à haute définition (HD Maps) riches en informations sémantiques ont prouvé qu’elles pouvaient améliorer la robustesse des tâches de localisation. Cependant, un défi majeur demeure : réaliser un appariement efficace entre les images multi-vues et les cartes sémantiques, tout en évitant les optimisations géométriques complexes et les ajustements multi-étapes de paramètres.

Pour répondre à ces défis, cette recherche propose un nouveau cadre de localisation sémantique visuelle de bout en bout, appelé “BEV-Locator”. Cette méthode combine des images multi-vues et des cartes sémantiques grâce à un module Transformer inter-modalités, permettant l’interaction d’informations et le décodage de la pose du véhicule, dans le but d’améliorer considérablement la précision et l’applicabilité en environnement de conduite autonome.

Source de l’article

Cette recherche est le fruit d’une collaboration entre plusieurs institutions, dont l’University of International Business and Economics, Tsinghua University, Queen Mary University of London et Qcraft Inc. Les résultats sont publiés dans le numéro de février 2025 de la revue Science China Information Sciences (volume 68, numéro 2), sous le titre « BEV-Locator: An End-to-End Visual Semantic Localization Network Using Multi-View Images ». L’article est rédigé par Zhihuang Zhang, Meng Xu (auteur correspondant), Wenqiang Zhou, Tao Peng, Liang Li et Stefan Poslad.

Processus de recherche

Objectifs et définition des problèmes

L’objectif de cette recherche est de résoudre le problème de localisation sémantique visuelle. Plus précisément, étant donné les images multi-vues capturées par un ensemble de caméras, une carte HD contenant des informations sémantiques et une estimation initiale de la pose du véhicule, l’objectif est de prédire avec précision la pose optimale du véhicule. Les entrées de cette tâche sont les images multi-vues et la carte sémantique projetée selon la pose initiale, et la sortie est le décalage de pose du véhicule par rapport à la position initiale (∆x, ∆y, ∆ψ).

Framework proposé

Un nouveau cadre de bout en bout est présenté, comprenant quatre modules principaux : un encodeur visuel BEV (Bird-Eye-View, vue en plongée), un encodeur de carte sémantique, un module Transformer inter-modalités et un décodeur de pose.

1. Encodeur BEV visuel

L’encodeur BEV visuel extrait les caractéristiques des images multi-vues et les projette dans l’espace BEV. Les étapes principales incluent : - Extracteur de caractéristiques d’image : En utilisant EfficientNet pré-entraîné sur ImageNet, les caractéristiques des images capturées par plusieurs caméras sont extraites et réduites en une carte de caractéristiques multi-canaux. - Module de transformation de vue : Utilisant des MLP (Multi-Layer Perceptrons) et les paramètres extrinsèques des caméras, les caractéristiques des images dans le repère de caméra sont projetées dans l’espace BEV. - Module de réduction dimensionnelle : Un modèle ResNet est utilisé pour réduire les cartes BEV haute-dimensionnelles à une carte BEV multi-canaux de résolution plus basse.

Les caractéristiques BEV 2D sont ensuite aplaties en séquences 1D avec intégration d’un encodage positional (Positional Embedding) pour préserver les informations spatiales utiles aux futurs modules Transformers.

2. Encodeur de carte sémantique

Les cartes HD comprennent divers éléments (marquages des voies, trottoirs, panneaux, etc.), souvent représentés sous forme de lignes, polygones ou points. Inspirée par VectorNet, cette recherche encode ces éléments sous forme de vecteurs structurés : - Chaque élément est transformé en un vecteur de caractéristiques haute-dimension via un MLP partagé. - Une couche de max pooling agrège les informations locales en un vecteur global, appelé “requête de carte” (Map Query).

3. Module Transformer inter-modalités

Ce module, basé sur une structure Transformer encodeur-décodeur, réalise le mappage entre caractéristiques visuelles BEV et éléments sémantiques : - Encodeur : Opère une auto-attention sur les séquences de caractéristiques BEV pour extraire des informations globales. - Décodeur : Utilise une attention croisée (Cross-Attention) pour identifier les relations spatiales entre les requêtes sémantiques et l’espace BEV.

Une optimisation clé réside dans l’intégration de l’encodage positional dans l’attention croisée, améliorant la correspondance entre les requêtes sémantiques et les caractéristiques visualisées en BEV.

4. Décodeur de pose

Le décodeur de pose agrège les informations des requêtes sémantiques via une couche de max pooling. L’information globale est ensuite mappée par un MLP pour déduire les décalages de pose (∆x, ∆y, ∆ψ).

Jeux de données et conception expérimentale

Les performances sont validées sur deux grands jeux de données : - nuscenes : Ce dataset couvre 242 km avec 1 000 scènes et des données multi-capteurs (6 caméras, lidars, radars) ainsi que 11 couches de cartes sémantiques. - Qcraft dataset : Ce jeu de données contient 400 km de données enregistrées avec 7 caméras et corrections RTK pour des cartes et trajectoires précises.

Configuration expérimentale

  • La localisation est formulée comme une tâche de régression supervisée, où le modèle prédit les décalages entre une pose initiale perturbée aléatoirement et la pose optimale réelle.
  • Comparaison de configurations BEV utilisant différentes résolutions de grille (0,15m, 0,25m, 0,50m) pour évaluer l’effet sur les performances.
  • Études d’ablation pour valider les contributions des modules (p. ex., Transformer en encodeur ou attention positionnelle).

Résultats expérimentaux et observations

Performance de précision

Sur nuscenes, BEV-Locator atteint une erreur latérale de 0,076m, longitudinale de 0,178m et d’orientation (yaw) de 0,510°. Sur Qcraft, grâce à des marquages plus clairs et des cartes mieux structurées, ces précisions s’améliorent encore : 0,052m en latéral, 0,135m en longitudinal et 0,251° pour l’orientation.

Résultats visuels

Les visualisations montrent que BEV-Locator parvient systématiquement à aligner les éléments carts des images. Ce résultat prouve la capacité du modèle à localiser le véhicule précisément.

Études d’ablation

  • Le module Transformer améliore nettement les interactions entre globalités des caractéristiques BEV, en réduisant les erreurs lateral-longitudinales.
  • L’intégration positionnelle dynamique optimise significativement la correspondance longitudinale.

Significations et valeur pratique

BEV-Locator offre une solution novatrice à la localisation, reformulant le problème de façon simplifiée grâce à un apprentissage bout-en-bout. Cette technique est non seulement prometteuse par sa simplicité de déploiement mais également par son intégration possible comme module sous-perceptuel général sous paradigme BEV.

Le potentiel réside également dans l’unification future des tâches perceptuelles BEV stabilisant trajectoire/navigation adaptative.