Un réseau de fusion de caractéristiques multi-échelles axé sur les petits objets dans la vue UAV

Contexte

Avec le développement rapide de la technologie des drones (UAV), les images de télédétection à basse altitude capturées par des drones sont largement utilisées dans des missions telles que la gestion des catastrophes, la recherche et le sauvetage. Cependant, la détection de petits objets (small object detection) dans les images de drones reste un problème complexe. En raison de la faible proportion de pixels occupés par les petits objets dans l’image et de leur distribution irrégulière, les performances des algorithmes de détection d’objets existants dans ces scénarios sont souvent insatisfaisantes. En particulier, bien que certains détecteurs existants aient introduit des modules de fusion de caractéristiques multi-échelles (multi-scale feature fusion) pour améliorer la précision de détection, ces méthodes traditionnelles négligent souvent la relation de poids entre l’objet et l’arrière-plan, ce qui entraîne une diminution de l’importance des petits objets dans les cartes de caractéristiques profondes. De plus, la mesure largement utilisée de l’intersection sur l’union (Intersection over Union, IoU) et ses variantes sont particulièrement sensibles aux erreurs de position des petits objets, ce qui affecte considérablement l’efficacité de l’assignation des étiquettes dans les détecteurs basés sur des ancres (anchor-based).

Pour résoudre ces problèmes, cet article propose un nouveau détecteur nommé AFF-YOLO, basé sur l’architecture du réseau YOLOv8, spécialement conçu pour améliorer la capacité de détection des petits objets dans les images de drones. Plus précisément, cet article propose trois modules clés : le module de fusion de caractéristiques par attention (Attention Feature Fusion Module, AFFM), la couche de caractéristiques pour petits objets (Small Object Feature Layer, SOFL) et la perte IoU basée sur le centroïde triangulaire (Triangular Centroid-based IoU Loss, TriC-IoU Loss). Ces modules améliorent ensemble la précision et la robustesse de la détection des petits objets.

Source de l’article

Cet article a été co-écrit par Jiantao Li, Chenbin Yu, Wenhui Wei et d’autres auteurs, issus de l’Institut de technologie et de bionique nano de Suzhou de l’Académie chinoise des sciences, de l’Université de Californie à San Diego, de l’Université Duke Kunshan et d’autres institutions. L’article a été publié le 13 mars 2025 dans la revue Cognitive Computation, sous le titre “A Multi-Scale Feature Fusion Network Focusing on Small Objects in UAV-View”.

Processus et résultats de la recherche

1. Processus de recherche

a) Module de fusion de caractéristiques par attention (AFFM)

Le module AFFM vise à améliorer l’efficacité de la fusion de caractéristiques multi-échelles en introduisant un mécanisme d’attention. Plus précisément, le module AFFM convertit d’abord les cartes de caractéristiques de différentes échelles en cartes de caractéristiques de même dimension de canal via des couches de convolution, puis calcule les poids via un module d’attention, et enfin génère la carte de caractéristiques finale par fusion pondérée. Ce processus améliore non seulement la représentation des caractéristiques des petits objets, mais réduit également l’interférence des informations de fond.

b) Couche de caractéristiques pour petits objets (SOFL)

Le module SOFL améliore davantage les informations sémantiques et géométriques des petits objets en introduisant une couche supplémentaire d’extraction de caractéristiques. Ce module fusionne les cartes de caractéristiques des couches superficielles et profondes du réseau, améliorant ainsi la capacité de détection des petits objets. Les expériences montrent que le module SOFL améliore considérablement la précision de détection, en particulier dans le traitement des petits objets.

c) Perte IoU basée sur le centroïde triangulaire (TriC-IoU Loss)

La perte TriC-IoU améliore la fonction de perte IoU traditionnelle en introduisant la distance du centroïde triangulaire comme terme de pénalité. Plus précisément, la perte TriC-IU prend en compte non seulement le degré de chevauchement entre la boîte prédite et la boîte cible, mais introduit également la distance du centroïde triangulaire et le rapport des côtés droits, reflétant ainsi mieux les informations de position et de forme des petits objets. Les expériences montrent que la perte TriC-IoU performe exceptionnellement bien dans les tâches de détection de petits objets, améliorant considérablement la précision de détection.

2. Principaux résultats

Les expériences ont été menées sur deux ensembles de données d’images de drones : VisDrone2019 et UAVDT. Les résultats montrent que le AFF-YOLO proposé dans cet article atteint une valeur mAP50 de 52,5 % sur l’ensemble de données VisDrone2019, soit une amélioration de 30,6 % par rapport aux détecteurs existants basés sur YOLO. De plus, sur l’ensemble de données UAVDT, AFF-YOLO performe également de manière exceptionnelle, atteignant une valeur mAP50 de 34,2 %, surpassant de manière significative les autres algorithmes.

3. Conclusion et valeur

Cet article améliore considérablement la précision et la robustesse de la détection des petits objets dans les images de drones en introduisant les modules AFFM, SOFL et TriC-IoU Loss. Ces modules améliorent non seulement la représentation des caractéristiques des petits objets, mais optimisent également la fonction de perte de régression des boîtes englobantes, permettant au modèle de performer de manière exceptionnelle dans le traitement des petits objets. Les résultats de cette recherche ont des perspectives d’application vastes dans les domaines de l’analyse d’images de drones, de la gestion des catastrophes, de la recherche et du sauvetage.

Points forts de la recherche

  1. Module de fusion de caractéristiques par attention (AFFM) : Améliore la représentation des caractéristiques des petits objets en introduisant un mécanisme d’attention, réduisant l’interférence des informations de fond.
  2. Couche de caractéristiques pour petits objets (SOFL) : Améliore la capacité de détection des petits objets en fusionnant les caractéristiques des couches superficielles et profondes.
  3. Perte IoU basée sur le centroïde triangulaire (TriC-IoU Loss) : Améliore la fonction de perte IoU traditionnelle en introduisant la distance du centroïde triangulaire et le rapport des côtés droits, améliorant considérablement la précision de détection des petits objets.

Autres informations utiles

Cet article a également mené des expériences d’ablation pour évaluer l’impact de chaque module sur la précision de détection. Les résultats montrent que les modules AFFM et SOFL améliorent considérablement la précision de détection, tandis que la perte TriC-IoU performe de manière exceptionnelle dans les tâches de détection de petits objets. De plus, cet article compare d’autres fonctions de perte IoU couramment utilisées, validant davantage la supériorité de la perte TriC-IoU.

Résumé

Cet article propose un nouveau détecteur nommé AFF-YOLO, qui améliore considérablement la précision et la robustesse de la détection des petits objets dans les images de drones en introduisant les modules AFFM, SOFL et TriC-IoU Loss. Ces modules améliorent non seulement la représentation des caractéristiques des petits objets, mais optimisent également la fonction de perte de régression des boîtes englobantes, permettant au modèle de performer de manière exceptionnelle dans le traitement des petits objets. Les résultats de cette recherche ont des perspectives d’application vastes dans les domaines de l’analyse d’images de drones, de la gestion des catastrophes, de la recherche et du sauvetage.