Analyse de la scène routière visuelle pour l'estimation du stress du conducteur

Étude sur l’estimation du stress des conducteurs basée sur des scènes routières visuelles

Contexte académique

Le stress des conducteurs est un facteur important contribuant aux accidents de la route, aux blessures et aux décès. Les recherches montrent que 94 % des accidents de la route sont liés au conducteur, notamment à cause d’une attention insuffisante, de distractions internes et externes, ainsi qu’à une mauvaise gestion de la vitesse, tous ces facteurs étant étroitement liés au stress des conducteurs. Par conséquent, identifier et gérer les niveaux de stress des conducteurs est essentiel pour améliorer l’expérience de conduite et la sécurité. Cependant, les méthodes actuelles d’identification du stress des conducteurs reposent principalement sur des données physiologiques (comme la fréquence cardiaque, l’activité électrodermale, etc.) ou sur des données opérationnelles du véhicule (comme les mouvements du volant et des pédales), qui nécessitent souvent l’utilisation de dispositifs portables ou manquent de prise en compte complète de l’environnement de conduite. En revanche, l’analyse des scènes routières visuelles offre une solution non intrusive et largement applicable pour estimer le stress des conducteurs. Cette étude vise à explorer la contribution des scènes routières visuelles à l’estimation du stress des conducteurs et à valider son efficacité grâce à des modèles d’apprentissage automatique.

Source de l’article

Cet article a été co-écrit par Cristina Bustos, Albert Sole-Ribalta, Neska Elhaouij, Javier Borge-Holthoefer, Agata Lapedriza et Rosalind Picard, issus respectivement de l’Universitat Oberta de Catalunya (UOC) et du MIT Media Lab. L’article a été publié en 2023 dans la revue IEEE Transactions on Affective Computing.

Processus de recherche et résultats

1. Sources de données et prétraitement

L’étude utilise le jeu de données public AffectiveRoad, qui contient des vidéos de 13 expériences de conduite réelles couvrant diverses scènes routières, y compris urbaines et autoroutières. Le jeu de données inclut également des valeurs de stress auto-déclarées par les conducteurs (variant de 0 à 1) et utilise la segmentation sémantique pour annoter les objets présents dans les scènes routières (tels que véhicules, piétons, panneaux de signalisation, etc.). Ces valeurs de stress ont été discrétisées en trois catégories : faible, moyen et élevé, formant ainsi un ensemble de données comprenant 110 000 images vidéo.

2. Conception et entraînement des modèles

L’étude évalue les performances de plusieurs modèles d’apprentissage automatique, y compris :
- Modèles de base à image unique : forêt aléatoire (Random Forest), machine à vecteurs de support (SVM) et réseau neuronal convolutif (CNN).
- Réseaux de segments temporels (TSN) et leurs variantes : TSN-W basé sur des poids appris et TSN-LSTM basé sur des réseaux LSTM (Long Short-Term Memory).
- Transformers de classification vidéo : y compris des modèles basés sur Transformer et le modèle VideoMAE.

L’étude adopte une stratégie de validation croisée “leave-one-driver-out”, divisant les données en ensembles d’entraînement, de validation et de test pour garantir la capacité de généralisation des modèles sur des données de conducteurs inconnus.

3. Résultats expérimentaux

Les résultats expérimentaux montrent que le modèle TSN-W atteint la meilleure précision moyenne avec 0,77, surpassant significativement les modèles de base à image unique. Les performances des modèles TSN-LSTM et Transformer sont comparables à celles de TSN-W, mais TSN-W présente des avantages en termes d’efficacité de calcul et d’interprétabilité. L’étude utilise également la cartographie d’activation de classe (Grad-CAM) et la segmentation d’images pour analyser les points d’intérêt du modèle dans les scènes de forte pression, révélant que la congestion du trafic, les piétons et les grands véhicules sont les principaux facteurs influençant les prédictions de haute pression.

4. Analyse de l’interprétabilité

En combinant Grad-CAM et la segmentation d’images, l’étude quantifie l’attention du modèle portée aux objets présents dans les scènes routières selon différents niveaux de stress. Les résultats montrent que le modèle se concentre davantage sur les piétons, les panneaux de signalisation et les grands véhicules dans les prédictions de forte pression, tandis que dans les scènes de faible pression, il accorde plus d’attention à la végétation et aux clôtures. Ces découvertes offrent des informations importantes pour comprendre les déclencheurs visuels du stress chez les conducteurs.

Conclusion et signification

Cette étude démontre la faisabilité de l’estimation du stress des conducteurs basée sur des scènes routières visuelles et réalise une précision élevée grâce au modèle TSN-W. Non seulement elle valide l’importance des informations contextuelles visuelles pour l’estimation du stress des conducteurs, mais elle fournit également un soutien théorique pour le développement futur d’environnements routiers urbains plus sûrs et de technologies d’assistance à la conduite. De plus, l’analyse de l’interprétabilité de l’étude révèle les objets clés liés au stress dans les scènes routières, offrant de nouvelles directions pour la recherche dans ce domaine.

Points forts de l’étude

  • Méthode innovante : Première évaluation systématique de la contribution des scènes routières visuelles à l’estimation du stress des conducteurs, proposant le modèle TSN-W hautement efficace.
  • Haute précision : Le modèle TSN-W atteint une précision moyenne de 0,77 sur le jeu de données AffectiveRoad, surpassant significativement les modèles de base.
  • Analyse de l’interprétabilité : Grâce à Grad-CAM et à la segmentation d’images, les objets clés liés au stress dans les scènes routières ont été révélés.
  • Valeur pratique : Les résultats de l’étude fournissent une base scientifique pour le développement de systèmes d’assistance à la conduite basés sur le contexte visuel et la conception de routes plus sûres.

Autres informations utiles

L’étude explore également les performances des modèles dans différents types de scènes routières (urbaines, autoroutières, parkings), révélant une performance particulièrement élevée dans les scènes urbaines. De plus, l’étude compare l’impact de différentes longueurs de vidéos et fréquences d’images sur les performances des modèles, identifiant une séquence vidéo de 40 secondes et une fréquence de 3 images/seconde comme configuration optimale.

Grâce à cette analyse approfondie, nous avons non seulement approfondi notre compréhension des sources de stress des conducteurs, mais nous avons également fourni un soutien technologique et méthodologique important pour les recherches futures dans ce domaine.