Segmentation sémantique faiblement supervisée des scènes de conduite basée sur quelques pixels annotés et des nuages de points

Basé sur quelques pixels annotés et des données de nuages de points pour la segmentation sémantique faiblement supervisée des scènes de conduite

Contexte et problème de recherche

La segmentation sémantique, en tant que tâche essentielle de la vision par ordinateur, trouve de nombreuses applications dans des domaines tels que la conduite autonome. Cependant, les méthodes traditionnelles de segmentation sémantique entièrement supervisées nécessitent des annotations au niveau des pixels, ce qui entraîne des coûts élevés. Dans la segmentation sémantique faiblement supervisée (Weakly Supervised Semantic Segmentation, WSSS), des annotations grossières telles que des étiquettes d’images, des cadres, ou des annotations ponctuelles sont utilisées pour obtenir des segmentations au niveau des pixels, ce qui réduit considérablement le coût des annotations.

Les méthodes WSSS actuelles reposent principalement sur les cartes d’activation de classe (CAM) pour générer des graines de segmentation initiales. Cependant, dans les scènes de conduite complexes, ces approches ne sont pas performantes. Les images de scènes de conduite contiennent souvent de multiples catégories d’objets avec des problèmes de chevauchement et d’occultation, rendant les méthodes WSSS basées sur des étiquettes d’images peu précises.

Pour résoudre ces problèmes, cette étude propose un nouveau cadre WSSS combinant des annotations ponctuelles limitées et des données de nuages de points pour améliorer les résultats de segmentation dans des scènes de conduite complexes. Ce cadre génère des étiquettes pseudo-segmentaires à partir d’une petite quantité de points annotés et de données de nuages de points, permettant ainsi d’entraîner un réseau de segmentation sémantique sans nécessiter d’annotations supplémentaires pour les données de nuages de points.

Source de l’article

Cet article, intitulé « Few Annotated Pixels and Point Cloud Based Weakly Supervised Semantic Segmentation of Driving Scenes », a été publié dans International Journal of Computer Vision. Il a été rédigé par Huimin Ma, Sheng Yi, Shijie Chen, Jiansheng Chen et Yu Wang, provenant de l’Université des Sciences et Technologies de Pékin et de l’Université Tsinghua. L’étude a été soumise le 18 janvier 2024 et acceptée le 9 octobre 2024.

Méthodologie et processus

1. Aperçu du cadre

Cet article propose un cadre de fusion des caractéristiques multi-dimensionnelles intégrant des caractéristiques 2D des images RGB et des caractéristiques 3D des nuages de points pour optimiser le processus de génération d’étiquettes pseudo-segmentaires. Le cadre comprend trois modules principaux :

  • Module de génération d’étiquettes pseudo-segmentaires 2D : Extraction des caractéristiques de haut et de bas niveaux des images RGB pour générer des étiquettes pseudo-segmentaires initiales à l’aide des points annotés.
  • Module de regroupement des caractéristiques 3D : Clustering non supervisé des données de nuages de points pour générer des masques d’instances, qui sont ensuite projetés sur les images RGB.
  • Module de fusion des caractéristiques multi-niveaux : Fusion des étiquettes pseudo-segmentaires 2D et des masques projetés 3D pour produire des étiquettes plus précises.

2. Méthode de génération d’étiquettes pseudo-segmentaires

2.1 Génération initiale des étiquettes pseudo-segmentaires

  • Extraction des caractéristiques : Extraction des caractéristiques au niveau des pixels (valeurs RGB, super-pixels), au niveau des apparences (distribution des couleurs, caractéristiques des contours) et au niveau sémantique (caractéristiques de saillance, cartes CAM).
  • Utilisation des annotations ponctuelles : Les annotations ponctuelles fournissent des informations de localisation et sont combinées avec les caractéristiques extraites pour calculer les vecteurs représentatifs de chaque catégorie via l’algorithme EM.
  • Attribution des étiquettes : À partir des vecteurs de caractéristiques calculés, chaque pixel est assigné à une catégorie si la similarité dépasse un seuil prédéfini.

2.2 Regroupement des caractéristiques des nuages de points

  • Suppression des points au sol : Une plane représentant le sol est ajustée pour supprimer les points associés.
  • Clustering : L’algorithme DBSCAN est utilisé pour regrouper les points en différentes instances.
  • Projection sur les images RGB : Les clusters de points sont projetés sur des images 2D, générant des masques de projection 2D.

2.3 Fusion des caractéristiques multi-dimensionnelles

Les étiquettes pseudo-segmentaires 2D et les masques projetés 3D sont fusionnés pour produire les étiquettes finales : - Règles de fusion : Les étiquettes dans chaque masque sont attribuées selon la catégorie majoritaire, réduisant les zones bruyantes. - Correction des étiquettes au sol : Les points au sol sont utilisés pour ajuster les étiquettes des pixels correspondants.

3. Entraînement du réseau

Les étiquettes pseudo-segmentaires finales sont utilisées pour entraîner un réseau de segmentation sémantique entièrement supervisé (Deeplab-v2) pour apprendre les caractéristiques des catégories à travers les échantillons.

Expérimentations et résultats

1. Jeu de données et métriques

Les expérimentations ont été conduites sur le jeu de données KITTI, qui contient 200 images pour l’entraînement et 200 pour les tests. La performance est mesurée à l’aide de l’indicateur mIoU (Mean Intersection over Union).

2. Résultats expérimentaux

Comparaison des performances

Sur KITTI, notre méthode surpasse significativement les autres approches faiblement supervisées : - Résultats sur l’ensemble d’entraînement : mIoU de 25,4 % (catégories) et 46,7 % (groupes de catégories), surpassant largement les méthodes basées sur les étiquettes d’images. - Résultats sur l’ensemble de test : mIoU de 21,6 % (catégories) et 48,0 % (groupes de catégories), confirmant l’efficacité du cadre.

Efficacité des annotations

Par rapport aux méthodes entièrement supervisées nécessitant 430,5 heures pour annoter 10 000 images, notre méthode ne requiert que 0,9 heure pour annoter 19 points, ce qui réduit considérablement les coûts d’annotation.

3. Études d’ablation

Différentes stratégies de fusion des caractéristiques multi-dimensionnelles ont été testées. Les résultats montrent que l’intégration des caractéristiques des nuages de points améliore significativement les performances.

Signification et contributions de la recherche

  1. Contributions académiques :

    • Un nouveau cadre WSSS combinant des caractéristiques 2D et 3D est proposé, améliorant la segmentation dans les scènes complexes.
    • L’utilisation des clusters non supervisés des nuages de points est innovante et ouvre de nouvelles perspectives de recherche.
  2. Valeur pratique :

    • Réduction significative des coûts d’annotation, rendant la segmentation accessible à diverses applications.
    • Applicable aux domaines exigeants tels que la conduite autonome.
  3. Points d’innovation :

    • Exploitation des informations spatiales des nuages de points pour corriger les étiquettes bruyantes.
    • Absence de besoins supplémentaires en annotations pour les nuages de points, maximisant leur valeur intrinsèque.

Conclusion

Le cadre proposé résout les lacunes des méthodes WSSS existantes dans les scènes de conduite complexes et démontre le potentiel des données de nuages de points dans les tâches faiblement supervisées. À l’avenir, les travaux pourront être étendus à d’autres ensembles de données et explorer de nouvelles dimensions pour la fusion des caractéristiques.