Fusion non supervisée des images PAT et IRM non alignées via une génération d'images cross-modalité et un enregistrement mutuellement renforçants
Fusion non supervisée d’images PAT et IRM non alignées à l’aide de méthodes de génération et de recalage d’images cross-modales renforcées mutuellement
Contexte et objectifs de la recherche
Ces dernières années, la tomographie photoacoustique (Photoacoustic Tomography, PAT) et l’imagerie par résonance magnétique (Magnetic Resonance Imaging, MRI) ont été largement utilisées dans la recherche biomédicale préclinique en tant que technologies d’imagerie de pointe. PAT peut fournir un contraste optique élevé et une imagerie en profondeur, mais le contraste des tissus mous est faible ; tandis que l’IRM possède une excellente capacité d’imagerie des tissus mous, mais une résolution temporelle plus faible. Bien que certaines avancées aient été réalisées dans la fusion de données multimodales, la fusion des images PAT et IRM reste un défi en raison des problèmes de désalignement des images et de distorsion spatiale.
Pour résoudre ces problèmes, les auteurs de cet article proposent un cadre d’apprentissage profond en phases, appelé PAMRFuse, qui se concentre sur la fusion d’images PAT et IRM non alignées. Ce cadre comprend un réseau de recalage multimodal vers une modalité unique, destiné à aligner avec précision les paires d’images PAT et IRM d’entrée, ainsi qu’un réseau de fusion auto-attentif, destiné à sélectionner les caractéristiques riches en informations pour la fusion. Cette recherche vise à réaliser la fusion d’informations entre les images PAT et IRM désalignées pour fournir aux chercheurs des informations plus complètes et détaillées sur les objets étudiés.
Source de l’article
Cet article a été réalisé par Yutian Zhong, Shuangyang Zhang, Zhenyang Liu, Xiaoming Zhang, Zongxin Mo, Yizhe Zhang, Haoyu Hu, Wufan Chen (membre senior de l’IEEE) et Li Qi, tous affiliés à la Southern Medical University et ses institutions affiliées. L’article a été publié dans les IEEE Transactions on Medical Imaging en mai 2024.
Processus et méthodes de recherche
Processus de travail
Le processus de travail de PAMRFuse est divisé en deux parties principales : le réseau de recalage multimodal vers une modalité unique et le réseau de fusion auto-attentif.
Réseau de recalage multimodal vers une modalité unique :
- Simplifie le recalage d’images grâce à une stratégie de synthèse d’image, réduisant ainsi le désalignement spatial et les images fantômes. Concrètement, ce processus utilise une structure de réseau antagoniste génératif (GAN). Le GAN comprend un générateur et un discriminateur, le générateur augmente la diversité et la qualité des images générées via des connections résiduelles.
- Des images IRM synthétiques sont utilisées pour aider à aligner les images IRM réelles et PAT, réduisant ainsi l’erreur de recalage entre elles.
Réseau de fusion auto-attentif :
- Comprend un chemin global, un chemin local et un module de fusion. Le chemin global utilise un mécanisme de self-attention (auto-attention) pour extraire les caractéristiques globales, tandis que le chemin local conserve les détails. Enfin, ces caractéristiques sont fusionnées par le module de fusion pour générer l’image fusionnée.
- Utilise deux discriminateurs antagonistes pour différencier les images fusionnées des images monomodales, améliorant ainsi la qualité de la fusion.
Réseau de synthèse d’images multimodales
En raison des différences dans les environnements d’imagerie de PAT et IRM, un désalignement existe entre les images. La fusion directe d’images non alignées entraîne des artefacts d’image. Par conséquent, les chercheurs ont proposé de générer des images IRM synthétiques par GAN, simplifiant ainsi le problème de recalage multimodal en un problème de recalage monomodal. L’architecture du générateur utilise des connections résiduelles pour améliorer la stabilité de l’entraînement et la diversité des images générées. Le discriminateur utilise plusieurs couches convolutives pour extraire les caractéristiques de l’image et les classer via une couche entièrement convolutive pour déterminer la réalité des images générées.
Réseau de recalage
Ce réseau utilise les images IRM synthétiques générées par le réseau de synthèse d’images et les images IRM réelles pour générer un champ de déformation des images, simplifiant le problème de recalage multimodal en un problème de recalage monomodal pour réduire la complexité de calcul. L’architecture du réseau de recalage est similaire à celle du modèle U-Net et intègre des modules résiduels pour améliorer les performances du réseau.
Réseau de fusion auto-attentif
Le réseau de fusion comprend trois sous-modules : un chemin global, un chemin local et un module de fusion. Le chemin global utilise un mécanisme de self-attention pour modéliser les dépendances à longue distance, tandis que le chemin local conserve les détails. Le module de fusion combine les caractéristiques extraites des deux chemins pour générer l’image fusionnée finale. Pour distinguer davantage l’origine des images fusionnées, deux discriminateurs antagonistes sont utilisés pour traiter séparément les images IRM et PAT synthétiques.
Principaux résultats de la recherche
Analyse quantitative et qualitative
Les chercheurs ont mené de nombreuses expériences quantitatives et qualitatives pour vérifier les performances exceptionnelles de PAMRFuse sur les images PAT-IRM de petits animaux. Les résultats expérimentaux montrent que PAMRFuse peut efficacement éliminer les problèmes de désalignement des images, tout en conservant les détails des tissus mous de l’IRM et les informations de luminosité de PAT. Comparée à 10 autres méthodes de fusion avancées, PAMRFuse a montré une qualité d’image et une efficacité de fusion supérieures selon divers indicateurs.
Indicateurs de performance
L’efficacité de PAMRFuse a été vérifiée à travers une série d’indicateurs, y compris l’erreur quadratique moyenne (MSE), le rapport signal/bruit de pic (PSNR), le coefficient de corrélation (CC), etc. En particulier dans les zones à forte intensité de luminosité, PAMRFuse a su conserver les détails d’origine des images tout en évitant la perte d’informations et le flou des images.
Analyse de la variabilité des images modalitaires et expériences d’ablation
Pour vérifier l’impact de la synthèse des images multimodales et des fonctions de perte, les chercheurs ont mené plusieurs expériences d’ablation. Les résultats montrent que l’utilisation de GAN pour générer des images IRM synthétiques, combinée à la perte de corrélation globale (GCC) et à la perte de gradient de champ de déformation du second ordre (LSmooth), peut considérablement améliorer la précision du recalage des images et la qualité globale. En outre, l’ajout du mécanisme de self-attention et du réseau de fusion à connexions denses permet de sélectionner efficacement des caractéristiques significatives pour la fusion tout en conservant les détails de l’image.
Conclusion
PAMRFuse constitue la première tentative de fusion d’informations pour éliminer les problèmes de désalignement des images PAT et IRM et a obtenu des résultats significatifs. Cette méthode dépasse non seulement en performance les méthodes traditionnelles et les approches d’apprentissage profond actuelles en termes de fusion d’images, mais elle montre également une large applicabilité dans les tâches complexes de fusion d’images. Bien que des défis subsistent pour l’intégration matérielle, PAMRFuse offre une méthode innovante et pratique dans le domaine de la fusion d’images multimodales, posant ainsi une base solide pour les recherches futures.
Valeur de la recherche
Cette recherche élargit non seulement le champ d’application de la fusion d’images multimodales, mais elle propose également une nouvelle méthode efficace pour traiter les tâches complexes de recalage et de fusion d’images. PAMRFuse, tout en conservant les détails des images et les informations riches, fournit des images fusionnées de haute qualité, ce qui est d’une importance majeure pour la recherche préclinique et d’autres domaines d’application.