Détection de caractéristiques auto-supervisée et reconstruction 3D pour le guidage en temps réel en neuroendoscopie
Étude sur la reconstruction 3D et la navigation en temps réel basées sur l’apprentissage auto-supervisé pour la neuroendoscopie
Contexte académique
La chirurgie neuroendoscopique (neuroendoscopy) est une technique chirurgicale mini-invasive, largement utilisée dans le traitement des lésions profondes du cerveau, comme la ventriculostomie endoscopique du troisième ventricule (endoscopic third ventriculostomy, ETV), la cautérisation du plexus choroïde, la fenestration des kystes, etc. Cependant, pendant la chirurgie, les structures cérébrales profondes subissent des déformations géométriques dues au déplacement du cerveau (brain shift) et à la perte de liquide céphalorachidien (CSF), ce qui pose un défi aux systèmes de neuronavigation traditionnels basés sur des images pré-opératoires. Les systèmes de navigation classiques reposent généralement sur une inscription rigide (rigid registration) d’images IRM ou TDM pré-opératoires, incapables de mettre à jour en temps réel les déformations tissulaires intra-opératoires, entraînant ainsi une baisse de la précision de la navigation.
Pour résoudre ce problème, l’équipe de recherche a proposé une méthode de détection de caractéristiques basée sur l’apprentissage auto-supervisé (self-supervised learning), combinée avec la technologie SLAM (Simultaneous Localization and Mapping), permettant une reconstruction 3D en temps réel des vidéos neuroendoscopiques et une navigation. Cette méthode vise à extraire des caractéristiques à partir de données vidéo endoscopiques non étiquetées via l’apprentissage auto-supervisé, améliorant ainsi la robustesse de la détection de caractéristiques et offrant un support de navigation précis et en temps réel pendant la chirurgie.
Source de l’article
Cet article a été réalisé par plusieurs chercheurs du département d’informatique et de génie biomédical de l’Université Johns Hopkins, dont Prasad Vagdargi, Ali Uneri, Stephen Z. Liu, entre autres. L’article a été publié dans le journal IEEE Transactions on Biomedical Engineering en 2025 sous le titre “Self-Supervised Feature Detection and 3D Reconstruction for Real-Time Neuroendoscopic Guidance”. La recherche a été financée par les Instituts nationaux de santé (NIH) et Medtronic.
Processus de recherche et résultats
1. Collecte et prétraitement des données
L’équipe de recherche a collecté 11 527 images vidéo issues de 15 cas cliniques de chirurgies neuroendoscopiques pour entraîner et valider le modèle d’apprentissage auto-supervisé. Chaque séquence vidéo durait de 10 à 47 secondes, avec une fréquence de 30 images par seconde. Les données vidéo ont été corrigées géométriquement et rognées pour ne conserver que la zone de vision endoscopique valide. De plus, l’équipe a appliqué diverses augmentations de données (data augmentation), y compris des transformations spatiales (comme rotation, redimensionnement, distorsion perspective) et des variations d’intensité (luminosité, contraste, bruit, reflets, etc.), pour simuler les artefacts courants dans les images per-opératoires.
2. Développement et formation du modèle de détection de caractéristiques auto-supervisé
L’équipe a développé un modèle appelé R2D2-E, basé sur l’architecture R2D2 (Repeatable and Reliable Detector and Descriptor), spécifiquement conçu pour la détection de caractéristiques dans les vidéos neuroendoscopiques. Le modèle R2D2-E utilise une structure de réseau à deux branches pour apprendre conjointement la détection de points clés, les descripteurs locaux et leur fiabilité. L’entraînement du modèle repose sur une méthode d’apprentissage auto-supervisé, générant des pseudo-étiquettes (pseudo-ground truth) par des transformations spatiales et de domaine aléatoires d’images, évitant ainsi la nécessité de données annotées manuellement.
Pendant l’entraînement, l’équipe a utilisé une validation croisée en 5 plis (5-fold cross-validation), divisant les 15 cas en 12 cas pour l’entraînement et 3 pour la validation. Le modèle a été optimisé à l’aide de l’optimiseur Adam avec un taux d’apprentissage de 10^-3, pendant 30 époques. Au cours de l’entraînement, des expériences de sélection d’hyperparamètres ont également été menées, ajustant notamment le taux d’apprentissage (learning rate) et la taille des patchs (patch size) pour déterminer la meilleure combinaison de paramètres.
3. Appariement de caractéristiques et reconstruction 3D
Le modèle R2D2-E détecte les points clés dans les images et calcule leurs descripteurs pour réaliser l’appariement des caractéristiques. Pendant le processus d’appariement, l’équipe a utilisé l’algorithme MAGSAC (Marginalizing Sample Consensus) pour filtrer les mauvais appariements ne correspondant pas au modèle d’homographie (homography model). Les points de caractéristiques correctement appariés sont ensuite utilisés pour estimer la pose de la caméra et générer un nuage de points 3D (point cloud) via triangulation. Le nuage de points est filtré statistiquement pour éliminer le bruit avant d’être aligné avec les images IRM pré-opératoires.
4. Résultats expérimentaux et évaluation des performances
L’équipe a évalué quantitativement les performances de R2D2-E en termes d’appariement de caractéristiques et de reconstruction 3D, en le comparant aux méthodes classiques de détection de caractéristiques (telles que SIFT, SURF) ainsi qu’à des approches basées sur l’apprentissage (comme SuperPoint). Les résultats montrent que R2D2-E présente des performances supérieures :
- Appariement de caractéristiques : L’erreur médiane des points clés (keypoint error, KPE) de R2D2-E est de 0,83 pixels, significativement inférieure à celle de SIFT (2,20 pixels) et de SURF (1,70 pixels). De plus, la longueur médiane de suivi des caractéristiques (track length) de R2D2-E est de 19 images, surpassant les autres méthodes.
- Reconstruction 3D : L’erreur projetée médiane (projected error, PE) de R2D2-E est de 0,64 mm, plus faible que celle de SIFT (0,90 mm) et de SURF (0,99 mm). En termes de score F1, R2D2-E obtient un score de 0,72 à un seuil de distance de 1 mm, soit une amélioration de 14 % et 25 % respectivement par rapport à SIFT et SURF.
5. Navigation en temps réel et visualisation augmentée
L’équipe a également développé un système de visualisation augmentée intégrant les structures cibles segmentées à partir des images IRM pré-opératoires avec la vidéo endoscopique en temps réel. Grâce à l’alignement du nuage de points et au rendu 3D des structures cibles, le système fournit des informations contextuelles spatiales en temps réel pendant la chirurgie, aidant les chirurgiens à localiser plus précisément les structures cibles.
Conclusions et signification
Cette étude montre que le modèle R2D2-E peut améliorer considérablement la précision de la détection de caractéristiques et de la reconstruction 3D lors des interventions neuroendoscopiques, fournissant un soutien puissant pour la navigation en temps réel. Comparé aux méthodes classiques de détection de caractéristiques, R2D2-E présente non seulement une meilleure précision d’appariement et une erreur projetée plus faible, mais il gère également efficacement divers artefacts endoscopiques (comme les reflets, flous, etc.), montrant une robustesse accrue. De plus, le développement du système de visualisation augmentée offre de nouveaux outils de navigation pour la chirurgie neuroendoscopique, promettant d’améliorer la précision et la sécurité des interventions.
Points forts de la recherche
- Méthode d’apprentissage auto-supervisé : Le modèle R2D2-E extrait des caractéristiques à partir de données vidéo endoscopiques non étiquetées grâce à l’apprentissage auto-supervisé, évitant ainsi la dépendance aux données annotées manuellement, ce qui améliore considérablement la généralisation et la robustesse du modèle.
- Reconstruction 3D et navigation en temps réel : En combinant la technologie SLAM, R2D2-E permet une reconstruction 3D en temps réel des vidéos neuroendoscopiques, offrant des informations spatiales précises et en temps réel pour la navigation per-opératoire.
- Système de visualisation augmentée : En fusionnant les images IRM pré-opératoires avec la vidéo endoscopique en temps réel, le système fournit une visualisation 3D des structures cibles pendant la chirurgie, aidant les chirurgiens à mieux localiser ces dernières.
Autres informations utiles
Dans l’article, l’équipe détaille également les aspects techniques de la mise en œuvre du modèle R2D2-E, y compris l’architecture du réseau, la fonction de perte, et les stratégies d’entraînement, offrant ainsi des références précieuses pour les recherches futures. De plus, l’équipe a mis à disposition les codes sources et les jeux de données associés afin de favoriser les avancées dans ce domaine.
Grâce au succès de cette étude, le modèle R2D2-E et son système de visualisation augmentée pourraient être largement utilisés dans les interventions neuroendoscopiques futures, offrant un support de navigation plus précis et sûr pour le traitement des lésions cérébrales profondes.