Réseau d'auto-encodage de mémoire probabiliste pour la détection de comportements anormaux dans les vidéos de surveillance

Détection des comportements anormaux dans les vidéos de surveillance basée sur un réseau auto-encodeur à mémoire probabiliste

Contexte académique

Dans les systèmes de surveillance intelligents, la détection des comportements anormaux est une fonction cruciale, largement utilisée dans des domaines tels que la lutte contre le terrorisme, le maintien de la stabilité sociale et la sécurité publique. Cependant, la détection des comportements anormaux fait face à un défi majeur : le déséquilibre extrême entre les données de comportements normaux et anormaux. Les données de comportements normaux sont généralement abondantes et faciles à obtenir, tandis que les données de comportements anormaux sont rares et difficiles à prédire. Ce déséquilibre rend difficile l’entraînement efficace des modèles avec les méthodes d’apprentissage supervisé traditionnelles. Par conséquent, la recherche sur la manière d’utiliser les données de comportements normaux pour modéliser la distribution des comportements normaux et ainsi détecter les comportements anormaux est devenue un domaine de recherche important.

Ces dernières années, les méthodes basées sur l’apprentissage profond ont fait des progrès significatifs dans la détection des comportements anormaux. En particulier, les méthodes basées sur la reconstruction des images vidéo et la prédiction des images futures sont considérées comme supérieures aux méthodes de reconstruction traditionnelles. Cependant, les méthodes existantes ont encore des limites lorsqu’il s’agit de gérer des scènes complexes et des comportements normaux multimodaux. Pour résoudre ces problèmes, cette étude propose un algorithme de détection des comportements anormaux semi-supervisé basé sur un réseau auto-encodeur à mémoire probabiliste (Probabilistic Memory Auto-Encoding Network, PMAE).

Source de l’article

Modèle de détection des comportements anormaux dans les vidéos de surveillance basé sur un réseau auto-encodeur à mémoire probabiliste

Cet article a été co-écrit par Jinsheng Xiao, Jingyi Wu, Shurui Wang, Qiuze Yu de l’École des sciences électroniques et de l’information de l’Université de Wuhan, Honggang Xie de l’École d’ingénierie électrique et électronique de l’Université de technologie de Hubei, et Yuan-Fang Wang du Département d’informatique de l’Université de Californie à Santa Barbara. L’article a été publié en 2025 dans la revue Neural Networks sous le titre Probabilistic Memory Auto-Encoding Network for Abnormal Behavior Detection in Surveillance Video.

Processus de recherche

1. Conception de l’étude

L’objectif de cette étude est de détecter les données qui s’écartent de la distribution des comportements normaux en apprenant cette distribution, permettant ainsi la détection des comportements anormaux. Pour cela, l’équipe de recherche a conçu un cadre basé sur un réseau auto-encodeur (Auto-Encoding Network), combiné à un modèle probabiliste et à un module de mémoire pour aider à modéliser les modèles de comportements normaux.

2. Réseau auto-encodeur

Le réseau auto-encodeur sert de réseau principal pour extraire les caractéristiques spatio-temporelles des images vidéo. Pour éviter la fuite d’informations futures, l’équipe de recherche a utilisé une convolution tridimensionnelle causale (Causal 3D Convolution) et des couches entièrement connectées partagées dans la dimension temporelle. Le réseau auto-encodeur se compose de trois parties : un encodeur, un décodeur et un prédicteur d’images. L’encodeur mappe le groupe d’images vidéo d’entrée à un vecteur caché, le décodeur reconstruit le vecteur caché en une carte de caractéristiques spatio-temporelles multidimensionnelles, et le prédicteur d’images convertit ces cartes de caractéristiques en une image prédite finale.

3. Modèle probabiliste

Pour ajuster la distribution des données d’entrée, l’équipe de recherche a conçu un modèle d’estimation de probabilité conditionnelle autorégressive (Autoregressive Conditional Probability Estimation Model). Ce modèle calcule de manière récursive la distribution de probabilité potentielle des données de sortie via un processus autorégressif, permettant ainsi au réseau de converger vers un état de faible entropie face aux données de comportements normaux. Plus précisément, le modèle utilise des couches entièrement connectées empilées de manière ordonnée pour estimer la densité de probabilité conditionnelle de chaque élément du vecteur caché, évitant ainsi l’incertitude du tri manuel.

4. Module de mémoire

Le module de mémoire est utilisé pour stocker les caractéristiques des comportements normaux dans les données historiques et fusionne le vecteur de mémoire avec les données d’entrée actuelles via un mécanisme d’attention. L’opération de lecture du module de mémoire est similaire à un mécanisme d’attention, générant des poids de fusion en calculant la similarité cosinus entre le vecteur de requête et le vecteur de mémoire, formant ainsi un nouveau vecteur de requête. L’opération de mise à jour du module de mémoire injecte les informations d’entrée actuelles dans le vecteur de mémoire via une moyenne pondérée, permettant ainsi une mise à jour continue du vecteur de mémoire.

5. Fonction objectif et score d’anomalie

L’équipe de recherche a défini la fonction objectif et le score d’anomalie à partir de trois aspects : l’erreur de reconstruction, l’entropie probabiliste et les caractéristiques de mémoire. L’erreur de reconstruction est mesurée par l’erreur quadratique moyenne (MSE) entre l’image prédite et l’image réelle ; l’entropie probabiliste est mesurée par la perte d’entropie croisée de la distribution de probabilité du vecteur caché ; les caractéristiques de mémoire sont mesurées par la perte de densité des caractéristiques et la perte de séparation des caractéristiques pour réduire les différences intra-classe et augmenter les différences inter-classe. Enfin, le score d’anomalie est calculé par une moyenne pondérée des contributions de chaque module.

Principaux résultats

1. Configuration expérimentale

L’équipe de recherche a testé les performances sur deux ensembles de données publics : UCSD Ped2 et ShanghaiTech. L’ensemble de données UCSD Ped2 contient 16 vidéos d’entraînement et 12 vidéos de test, avec une résolution de 240×360 ; l’ensemble de données ShanghaiTech contient 437 vidéos de surveillance sur le campus, avec une résolution de 856×480. Les expériences ont été menées en utilisant Python 3.6 et le framework PyTorch 1.1.0, avec l’entraînement et les tests effectués sur un GPU NVIDIA Tesla V100.

2. Expériences d’ablation

Pour explorer le rôle de chaque module, l’équipe de recherche a mené des expériences d’ablation sur l’ensemble de données UCSD Ped2. Les résultats montrent que les connexions de saut (Skip-Layer Connection) améliorent considérablement la capacité de reconstruction du réseau ; le modèle probabiliste fonctionne mieux lorsque la longueur du groupe d’images vidéo est courte, tandis que le module de mémoire fonctionne mieux lorsque la longueur du groupe d’images vidéo est longue. Dans l’ensemble, l’ajout de chaque module a un effet positif sur les performances du réseau.

3. Comparaison avec les algorithmes classiques

L’équipe de recherche a comparé l’algorithme PMAE avec plusieurs algorithmes classiques. Sur l’ensemble de données UCSD Ped2, l’algorithme PMAE a atteint une valeur AUC de 0,958, et sur l’ensemble de données ShanghaiTech, il a atteint une valeur AUC de 0,729, surpassant la plupart des algorithmes de comparaison. De plus, la vitesse d’inférence de l’algorithme PMAE atteint 96,3 FPS, répondant ainsi aux besoins de surveillance en temps réel.

Conclusion et signification

Cette étude propose un algorithme de détection des comportements anormaux semi-supervisé basé sur un réseau auto-encodeur à mémoire probabiliste, détectant les données qui s’écartent de la distribution des comportements normaux en apprenant cette distribution, permettant ainsi la détection des comportements anormaux. Les résultats de l’étude montrent que cet algorithme offre des performances exceptionnelles sur plusieurs ensembles de données publics, avec une précision de détection élevée et une capacité en temps réel. De plus, la conception de l’algorithme prend pleinement en compte les caractéristiques multimodales des comportements normaux, évitant efficacement la reconstruction des images anormales, améliorant ainsi le taux de détection.

Points forts de la recherche

  1. Réseau auto-encodeur à mémoire probabiliste : En combinant un modèle probabiliste et un module de mémoire, il résout efficacement le problème du déséquilibre entre les données de comportements normaux et anormaux.
  2. Modèle d’estimation de probabilité conditionnelle autorégressive : En ajustant la distribution des données d’entrée via un processus autorégressif, il permet au réseau de converger vers un état de faible entropie, améliorant ainsi sa capacité à modéliser les comportements normaux.
  3. Module de mémoire : Stocke plusieurs modèles de comportements normaux, permettant la coexistence de données multimodales de comportements normaux, évitant ainsi la reconstruction des images anormales.
  4. Capacité en temps réel : La vitesse d’inférence de l’algorithme atteint 96,3 FPS, répondant aux besoins de surveillance en temps réel.

Autres informations utiles

L’équipe de recherche a également démontré les performances de l’algorithme dans des vidéos de surveillance réelles à travers des expériences de visualisation. Les résultats montrent que l’algorithme PMAE peut identifier efficacement les comportements anormaux et offre des performances exceptionnelles dans plusieurs scénarios. De plus, l’équipe de recherche a visualisé la distribution des caractéristiques de chaque module via la méthode t-SNE, validant davantage l’efficacité de l’algorithme.

Cette étude propose une méthode efficace pour résoudre le problème de la détection des comportements anormaux dans les vidéos de surveillance, avec une valeur scientifique importante et des perspectives d’application prometteuses.