Un cadre amélioré pour la détection en temps réel des comportements anormaux dans les foules denses utilisant YOLOv8
Contexte académique
Avec l’augmentation des besoins en matière de sécurité publique, en particulier lors de grands événements religieux comme le pèlerinage de la Mecque (Hajj), la détection des comportements anormaux dans les foules denses est devenue un sujet crucial. Les méthodes de détection existantes, confrontées à des conditions complexes telles que les occlusions, les variations d’éclairage et les vêtements uniformes, montrent souvent des performances insatisfaisantes, entraînant une baisse de la précision de détection. Pour relever ces défis, les chercheurs s’efforcent de développer des technologies de vision par ordinateur plus avancées afin d’améliorer la précision et l’efficacité de la surveillance en temps réel.
L’essence de cette étude réside dans la proposition d’un modèle amélioré de YOLOv8 — le Crowd Anomaly Detection Framework (CADF) — qui intègre la technique Soft-NMS (une version douce de la suppression non maximale), améliorant significativement la précision de détection dans des environnements complexes. Cette recherche s’est non seulement concentrée sur l’optimisation du contexte spécifique du Hajj, mais a également été validée sur plusieurs ensembles de données publics, démontrant sa large applicabilité et sa robustesse.
Source de l’article
Cet article a été co-écrit par Rabia Nasir, Zakia Jalil, Muhammad Nasir, Tahani Alsubait, Maria Ashraf et Sadia Saleem, issus de différentes institutions de recherche. L’article a été accepté le 24 mars 2025 et publié dans la revue Artificial Intelligence Review, avec le DOI 10.1007/s10462-025-11206-w.
Processus de recherche
1. Préparation des données et extraction des images
L’étude commence par l’extraction d’images vidéo du dataset HajjV2, suivi d’une annotation. Le dataset HajjV2 contient des vidéos de différents scénarios du Hajj, couvrant divers comportements anormaux tels que des mouvements de foule inversés, des objets non humains, des courses, des positions assises ou couchées, etc. Les chercheurs ont utilisé l’outil OpenCV pour extraire les images des vidéos et les convertir en images JPEG. Les informations d’annotation pour chaque image, y compris les coordonnées des boîtes de délimitation et les étiquettes de catégorie, ont été stockées dans des fichiers CSV et ensuite converties au format YOLO pour faciliter l’entraînement du modèle.
2. Entraînement du modèle et intégration de Soft-NMS
L’étude utilise YOLOv8 comme modèle de base, qui a été amélioré par l’intégration de la technique Soft-NMS. Soft-NMS ajuste dynamiquement les scores des boîtes de détection qui se chevauchent, plutôt que de les supprimer directement, conservant ainsi davantage de détections valides dans des scénarios denses et occlus. L’entraînement a été divisé en deux phases : la première phase utilisait 15 époques, avec une taille d’image de 256 et une taille de lot de 8 ; la deuxième phase utilisait 20 époques, avec une taille d’image de 416 et une taille de lot de 16. Au cours de l’entraînement, le modèle a appris à détecter avec précision les comportements anormaux dans des environnements complexes.
3. Évaluation et comparaison du modèle
L’étude a évalué de manière exhaustive le CADF sur le dataset HajjV2, montrant que son AUC (aire sous la courbe) atteignait 88,27 %, soit une amélioration de 13,09 % par rapport à YOLOv2 et de 12,19 % par rapport à YOLOv5, avec une précision de 91,6 %. De plus, des tests ont été effectués sur les datasets UCSD et ShanghaiTech, validant davantage la capacité de généralisation du modèle. Comparé à des modèles avancés tels que VGG19 et EfficientDet, CADF a surpassé ces derniers en termes de précision, AUC, rappel et mAP (précision moyenne).
Résultats principaux
1. Amélioration de la précision de détection
Grâce à l’intégration de Soft-NMS, la précision de détection de CADF sur le dataset HajjV2 a été significativement améliorée. En particulier, dans des conditions d’occlusion et de variations d’éclairage, le modèle a pu identifier avec plus de précision les comportements anormaux. Par exemple, dans des scénarios de mouvements de foule inversés ou de positions assises, le rappel et la précision de CADF étaient supérieurs à ceux des méthodes traditionnelles.
2. Validation de la capacité de généralisation
Les tests sur les datasets UCSD et ShanghaiTech ont montré que CADF n’était pas seulement adapté au contexte du Hajj, mais pouvait également détecter efficacement les comportements anormaux dans d’autres environnements de foules denses. Ces résultats démontrent l’adaptabilité et la robustesse du modèle sur différents ensembles de données.
3. Comparaison avec d’autres modèles
Comparé à des modèles tels que VGG19 et EfficientDet, CADF a surpassé ces derniers sur plusieurs indicateurs d’évaluation. Par exemple, en termes d’AUC et de mAP, CADF a dépassé VGG19 de plus de 10 % et EfficientDet de plus de 5 %. Ces résultats confirment la supériorité de CADF dans la détection des comportements anormaux dans les foules denses.
Conclusion et signification
L’étude propose le cadre CADF, qui, grâce à l’intégration de la technique Soft-NMS, améliore significativement la précision et la robustesse de la détection des comportements anormaux dans les foules denses. Ce cadre a non seulement excellé dans le contexte du Hajj, mais a également été validé sur plusieurs ensembles de données publics, prouvant son applicabilité large. Les résultats de cette recherche sont d’une grande importance pour améliorer la sécurité lors de grands événements publics, en particulier lors de rassemblements religieux, d’événements sportifs et d’autres scénarios à haut risque, où il peut prévenir efficacement des accidents tels que les bousculades.
De plus, l’application du cadre CADF s’aligne sur les Objectifs de Développement Durable (ODD) des Nations Unies, en particulier l’objectif 3 (bonne santé et bien-être) et l’objectif 11 (villes et communautés durables), en utilisant des moyens technologiques pour améliorer la sécurité publique et contribuer à la création d’environnements urbains plus sûrs et plus durables.
Points forts de la recherche
- Intégration de Soft-NMS : En ajustant dynamiquement les scores des boîtes de détection, la précision de détection dans des scénarios d’occlusion et de foules denses a été significativement améliorée.
- Validation sur plusieurs datasets : Les tests sur HajjV2, UCSD et ShanghaiTech ont prouvé l’applicabilité large du modèle.
- Comparaison avec des modèles avancés : CADF a surpassé des modèles tels que VGG19 et EfficientDet sur plusieurs indicateurs d’évaluation, démontrant sa supériorité.
- Valeur pratique : Les résultats de cette recherche sont d’une grande importance pour améliorer la sécurité lors de grands événements publics, en particulier dans des scénarios à haut risque.
Autres informations pertinentes
Cette étude explore également le potentiel d’application du cadre CADF dans la surveillance en temps réel, en optimisant l’architecture du modèle et les stratégies d’entraînement pour une détection efficace en temps réel. De plus, des pistes de recherche futures sont proposées, telles que l’optimisation des performances du modèle dans des environnements extrêmes et l’exploration de nouveaux scénarios d’application.