Détection semi-supervisée des nodules thyroïdiens dans les vidéos échographiques

Rapport de recherche sur la détection des nodules thyroïdiens dans les vidéos échographiques semi-supervisées

Contexte de la recherche

Les nodules thyroïdiens sont des maladies thyroïdiennes courantes, et leur dépistage et diagnostic précoce reposent généralement sur des examens échographiques. L’échographie est une méthode de détection non invasive couramment utilisée pour diagnostiquer diverses maladies, y compris les nodules thyroïdiens, le cancer du sein et les plaques artérielles. Cependant, en raison de la faible résolution des nodules thyroïdiens dans les images échographiques, de la morphologie irrégulière et complexe des lésions, l’examen échographique repose fortement sur l’expérience des radiologues, et des erreurs de diagnostic et des omissions se produisent occasionnellement, en particulier dans les régions et pays moins développés. Par conséquent, il est particulièrement important de développer des méthodes automatisées précises basées sur les systèmes d’aide au diagnostic (Computer-Aided Diagnosis, CAD).

Ces dernières années, la technologie d’apprentissage profond a été introduite dans le diagnostic assisté par ordinateur des images échographiques. Bien que les méthodes existantes de détection des nodules thyroïdiens aient fait des progrès sur les images échographiques statiques, elles n’ont pas réussi à exploiter pleinement les informations spatiales et temporelles du processus de diagnostic au fil du temps. Lors des examens cliniques, les radiologues doivent examiner attentivement plusieurs images successives pour localiser les nodules, analyser leurs caractéristiques et finalement établir un diagnostic. Par conséquent, la détection d’images échographiques basée sur des vidéos peut fournir plus d’informations spatiales et temporelles que les seules images individuelles.

Illustration de la structure du réseau neuronal construit En raison de la diversité des morphologies des nodules thyroïdiens et de la complexité de l’annotation des images échographiques, les solutions de détection existantes dépendent largement d’un grand nombre d’échantillons d’entraînement. Cependant, la diversité et la complexité des nodules dans les images échographiques à faible résolution ne peuvent être annotées que par des radiologues expérimentés, rendant l’annotation de ces images plus chronophage et laborieuse que celle des images individuelles. C’est pourquoi, dans des conditions d’annotation limitée, il reste un défi d’exploiter pleinement les vidéos échographiques pour détecter les nodules thyroïdiens.

Origine de l’article

Cette recherche a été réalisée par Xiang Luo, Zhongyu Li, Canhua Xu, Bite Zhang, Liangliang Zhang, Jihua Zhu, Peng Huang, Xin Wang, Meng Yang, Shi Chang et coll. Les auteurs appartiennent à des institutions telles que l’Université Jiaotong de Xi’an, la Quatrième Université Médicale Militaire, l’Hôpital Xiangya, l’Université Centrale du Sud, etc. Cet article a été publié le 1er janvier 2024 dans IEEE Transactions on Medical Imaging.

Objectif de la recherche

Cet article vise à résoudre les problèmes suivants : 1. Comment utiliser les informations spatiales et temporelles des vidéos échographiques pour détecter plus précisément les nodules thyroïdiens. 2. Comment, dans des conditions de données annotées limitées, améliorer la précision de la détection des nodules par des méthodes d’apprentissage semi-supervisé.

Méthodes de recherche

Cet article propose un cadre semi-supervisé basé sur la vidéo pour détecter les nodules thyroïdiens dans les vidéos échographiques. Ce cadre comprend deux points d’innovation majeurs : 1. Réseau de détection guidé par les images adjacentes (Adjacent Frame Guided Network, AFGN) : en utilisant les images adjacentes pour inférer l’image actuelle, améliorant ainsi la cohérence spatiale de la détection. 2. Stratégie d’adaptation des pseudo-étiquettes : en générant des pseudo-étiquettes et en les adaptant dans les images non prédites, exploitant pleinement les vidéos non annotées, réduisant ainsi la charge de travail d’annotation manuelle.

Prétraitement et annotation des données

  1. Collecte des données: Recueil des vidéos échographiques de vues transversales (1648) et longitudinales (1622) de 1316 patients.
  2. Nettoyage des données: Élimination des vidéos de mauvaise qualité et rognage des informations de périphérie des vidéos, obtenant 996 vidéos de vue transversale et 1088 vidéos de vue longitudinale.
  3. Sélection et annotation des images: En calculant la similarité entre les images adjacentes, élimination des images similaires pour réduire la charge de travail d’annotation. Les images restantes sont annotées par deux radiologues ayant plus de dix ans d’expérience et vérifiées par un radiologue avec plus de vingt ans d’expérience, obtenant finalement 4730 images de vue transversale et 4939 images de vue longitudinale.

Cadre semi-supervisé de détection vidéo échographique

Pour réduire la charge de travail d’annotation manuelle, un cadre de détection vidéo semi-supervisé a été proposé. Ce cadre inclut les étapes principales suivantes : 1. Initialisation: Initialisation des réseaux Student-AFGN et Teacher-AFGN avec la même configuration d’hyperparamètres. 2. Génération de pseudo-étiquettes: Le Teacher-AFGN est d’abord entraîné et optimisé sur les vidéos annotées pour générer des pseudo-étiquettes pour les vidéos non annotées, utilisant une suppression des maxima non maximaux pour éliminer les résultats de détection en double, et un seuil de confiance pour filtrer les boîtes de délimitation incertaines. 3. Entraînement du réseau étudiant: Le Student-AFGN est entraîné avec les vidéos non annotées avec des pseudo-étiquettes tout en utilisant les vidéos annotées avec des étiquettes réelles pour l’apprentissage supervisé, introduisant un paramètre λ pour équilibrer l’apprentissage supervisé et non supervisé.

Stratégie d’adaptation des pseudo-étiquettes

Lors de la génération de pseudo-étiquettes, en raison de la diversité des morphologies des nodules thyroïdiens, le réseau de détection pré-entraîné peut ne pas prédire parfaitement toutes les images. Une stratégie d’adaptation des pseudo-étiquettes basée sur les images adjacentes a été proposée pour combler les étiquettes des images non annotées. Cela inclut trois cas principaux : 1. Images non prédites au début/à la fin : Calcul de l’indice de similarité structurelle entre les deux images les plus proches et l’image non prédites. Si les deux sont supérieurs au seuil défini, les étiquettes des deux images sont réparties en moyenne pour générer l’étiquette de l’image non prédites. 2. Image centrale mais avec des étiquettes pseudo attribuées avant et après: Calcul de l’indice de similarité structurelle entre l’image non prédites et les deux images précédentes et suivantes, générant les étiquettes pseudo en moyenne. 3. Image centrale sans étiquettes avant et après: Calcul de l’indice de similarité structurelle entre l’image non prédites et toutes les images avec des étiquettes pseudo, en utilisant les deux scores de similarité les plus élevés pour calculer. Si les deux sont supérieurs au seuil, les étiquettes des deux images sont moyennées pour générer les pseudo-étiquettes de l’image non prédites.

Réseau de détection des vidéos échographiques

Pour exploiter pleinement les informations spatiales et temporelles, un réseau de détection guidé par les images adjacentes, AFGN, a été conçu en sélectionnant et en agrégant les caractéristiques des images adjacentes pour améliorer les résultats de détection de l’image actuelle. Les étapes spécifiques sont les suivantes : 1. Sélection de région candidate: Générer des régions candidates pour l’image actuelle et les images adjacentes, en concevant trois indicateurs (score de confiance des régions candidates, score de distance des images et score de chevauchement des régions candidates) pour sélectionner les régions candidates fortement corrélées avec l’image actuelle. 2. Module d’attention multi-images: Introduction d’un module de relation, utilisant les caractéristiques des images adjacentes pour renforcer les caractéristiques des régions candidates de l’image actuelle, améliorant ainsi les résultats de détection de l’image actuelle.

Détails de l’entraînement du cadre

La perte de la fonction d’optimisation du Student-AFGN inclut les parties supervisée et non supervisée, la fonction de perte étant définie comme suit : [ L_{total} = L_s + \lambda L_u ] où ( L_s ) et ( L_u ) représentent respectivement les pertes supervisée et non supervisée.

Résultats expérimentaux

Pour valider la méthode proposée, plusieurs groupes d’expériences comparatives ont été réalisés : 1. Impact du nombre de vidéos annotées : Avec différents nombres de vidéos annotées, la méthode proposée affiche de bonnes performances, et les avantages du cadre semi-supervisé sont plus évidents lorsque le nombre de vidéos annotées est faible. 2. Comparaison avec d’autres modèles de détection : Avec 100 vidéos de vues transversales et 100 vidéos de vues longitudinales annotées, la méthode proposée améliore la précision de 8.20% et 5.75% par rapport au meilleur concurrent, TransVOD++. Dans les expériences de validation croisée en cinq fois utilisant l’ensemble des vidéos annotées, la méthode proposée améliore les résultats en termes de mAP de 0.26% à 1.03% par rapport au meilleur concurrent, RDN.

Conclusion

Cet article propose un cadre semi-supervisé pour la détection des nodules thyroïdiens dans les vidéos échographiques. En introduisant un réseau de détection guidé par les images adjacentes (AFGN) et une stratégie d’adaptation des pseudo-étiquettes, la méthode proposée obtient de bons résultats de détection même avec un nombre limité de données annotées et montre une amélioration significative par rapport aux méthodes existantes. Les résultats expérimentaux montrent que ce cadre a une valeur d’application et une valeur scientifique importantes pour la détection des nodules thyroïdiens.