IoU du champ de vision pour la détection d'objets dans des images à 360°

Détection d’objets dans les images à 360° à l’aide de l’IoU FOV

Ces dernières années, les caméras à 360° ont été largement utilisées dans de nombreux domaines tels que la réalité virtuelle, la conduite autonome et la surveillance de sécurité. Avec l’augmentation des données d’images à 360°, la demande de tâches de reconnaissance d’images à 360°, en particulier la détection d’objets, ne cesse de croître. En raison des insuffisances des méthodes traditionnelles dans le traitement des images à 360°, les chercheurs Miao Cao, Satoshi Ikehata et Kiyoharu Aizawa ont proposé deux technologies de base : le Field-of-View Intersection over Union (FOV-IoU) et l’augmentation à 360 degrés (360augmentation), pour améliorer l’efficacité de la détection d’objets dans les images à 360°.

Contexte et motivation de l’étude

La plupart des réseaux neuronaux de détection d’objets modernes sont principalement conçus pour des images en perspective, mais lorsqu’ils sont appliqués au format de projection équirectangulaire (EquiRectangular Projection, ERP) des images à 360°, la performance de détection diminue considérablement en raison de la distorsion de l’image. Les méthodes traditionnelles incluent la projection des informations à 360° dans plusieurs images en perspective, ou l’utilisation directe d’un détecteur d’objets en perspective sur des images ERP. Cependant, la première méthode rencontre des difficultés pour détecter les objets aux frontières et implique des coûts de calcul élevés, tandis que la seconde méthode se dégrade en raison de la distorsion sévère et de la mauvaise calcul du IoU dans les images ERP. Pour cette raison, les chercheurs ont proposé un modèle de détection d’objets basé sur la convolution sphérique (Spherical Convolution, SphConv), mais les résultats expérimentaux montrent que ces modèles ne fonctionnent toujours pas bien lorsqu’ils sont intégrés aux détecteurs d’objets en perspective les plus avancés.

Un autre problème clé réside dans le calcul incorrect du IoU dans les images à 360°. Les cadres rectangulaires traditionnels dans les coordonnées d’image 2D ne peuvent pas contraindre efficacement les objets sur la sphère, en particulier dans les régions à haute latitude. Par conséquent, des cadres de limite de champ de vision (FOV-BB) ont été adoptés, mais leur calcul de surface est très complexe. Pour résoudre ces problèmes, cette étude propose une méthode de calcul de FOV-IoU et une technique d’augmentation de données 360augmentation, et effectue plusieurs expériences sur le jeu de données 360-indoor pour vérifier leur efficacité et supériorité.

Auteurs et sources de publication

Cet article a été co-écrit par Miao Cao, Satoshi Ikehata et Kiyoharu Aizawa, respectivement de l’Université Métropolitaine de Tokyo et de l’Institut National de l’Informatique au Japon (National Institute of Informatics). La recherche associée a été publiée dans la revue IEEE Transactions on Image Processing en août 2023.

Déroulement des travaux de recherche

1. Proposition du Field-of-View Intersection over Union (FOV-IoU)

La recherche introduit d’abord le concept du cadre de limite du champ de vision (FOV-BB) et son application dans les images extrêmes. La méthode de calcul du IoU traditionnel montre de mauvaises performances lors du traitement des images à 360°, en particulier dans les régions à haute latitude. À cette fin, le FOV-IoU utilise une nouvelle méthode de calcul pour approximativement mieux le IoU entre deux FOV-BB.

En particulier, la recherche propose une “Distance de Champ de Vision” (FOV Distance) pour éviter les erreurs de calcul, en utilisant les formules sphériques et la distance grand cercle (c’est-à-dire la distance la plus courte entre deux points sur une sphère) pour calculer la zone d’intersection, ce qui permet de trouver la valeur exacte du IoU. En comparaison avec la méthode sph-iou traditionnelle, le FOV-IoU peut traiter plus efficacement la détection d’objets dans les régions à haute latitude, améliorant considérablement la précision et l’efficacité du calcul.

2. Technique d’augmentation de données 360augmentation

En raison de la spécificité des images à 360°, les transformations géométriques traditionnelles (telles que la rotation et la translation) ne sont pas applicables. Les chercheurs ont proposé la technique 360augmentation, incluant deux stratégies : la rotation verticale et la translation horizontale pour augmenter la diversité des données d’entraînement tout en maintenant la mise en correspondance des coordonnées sphériques ERP.

En particulier, 360augmentation simule le processus par lequel les humains tournent leur tête pour observer différentes directions lors de l’utilisation d’un équipement VR, en sélectionnant aléatoirement des angles pour effectuer des transformations d’images et de cadres de limites dans les directions horizontales et verticales. Grâce à ce traitement, les données d’entraînement peuvent mieux conserver les caractéristiques des images à 360° et améliorer la précision de la détection d’objets dans les régions à haute latitude.

Principaux résultats expérimentaux et analyses

1. FOV-IoU vs sph-iou

La recherche a vérifié la précision et l’efficacité du calcul du FOV-IoU dans plusieurs expériences. Les résultats expérimentaux montrent que le FOV-IoU est non seulement plus précis à différentes latitudes, mais qu’il a également une efficacité de calcul équivalente, voire meilleure, que le sph-iou. De plus, les modèles de détection d’objets intégrant le FOV-IoU filtrent mieux les prédictions redondantes lors de l’étape de suppression non-maximale (NMS), augmentant la fiabilité des résultats de prédiction.

2. Fonction de perte FOV-GIoU

L’étude a intégré le FOV-IoU dans la fonction de perte Generalized IoU (GIoU) et a proposé la perte FOV-GIoU pour entraîner les modèles de détection d’objets. Les résultats expérimentaux montrent que les modèles utilisant la perte FOV-GIoU ont significativement amélioré la précision de la détection dans les zones de haute latitude, surpassant les résultats obtenus avec la perte sph-giou traditionnelle.

3. Efficacité de 360augmentation

Dans plusieurs modèles de détection d’objets, les chercheurs ont combiné la technique 360augmentation avec la perte FOV-GIoU pour entraîner divers détecteurs d’objets avancés, tels que Faster R-CNN, YOLOv3, etc. Les résultats expérimentaux montrent que 360augmentation a augmenté de manière significative la diversité des données d’entraînement et la précision de détection, en particulier dans les zones de haute latitude.

4. Comparaison avec d’autres méthodes de détection d’objets à 360°

L’étude a également comparé les méthodes proposées avec d’autres architectures de détection d’objets conçues pour les images à 360°, telles que s2cnn et spherenet. Les résultats montrent que les détecteurs d’objets en perspective utilisant le FOV-IoU et 360augmentation surpassent nettement les autres méthodes en termes de précision globale, avec une supériorité notable dans les régions à haute latitude.

Conclusion et valeur de la recherche

Les méthodes de calcul du FOV-IoU et la technique d’augmentation de données 360augmentation proposées dans cette étude fournissent de nouvelles idées et un support technique pour la détection d’objets dans les images à 360°. Ces méthodes améliorent non seulement de manière significative la précision de détection et l’efficacité du calcul, mais sont également très polyvalentes et peuvent être facilement intégrées aux détecteurs d’objets en perspective existants. Bien que ces méthodes présentent encore certaines limites pour le traitement des objets sévèrement déformés dans les régions à haute latitude, elles constituent une avancée novatrice face aux problèmes de détection dans les images à 360°, offrant une valeur scientifique et des perspectives d’application importantes.