Un modèle de fondation pour la segmentation, la détection et la reconnaissance conjointes d'objets biomédicaux à travers neuf modalités
Décoder l’avenir de l’analyse d’image biomédicale : un modèle fondamental pour la segmentation, la détection et la reconnaissance multimodales
Introduction
L’analyse d’images biomédicales est devenue un outil indispensable pour les découvertes biomédicales, permettant des études sur plusieurs échelles allant des organelles aux organes. Cependant, les méthodes traditionnelles d’analyse d’images biomédicales traitent majoritairement la segmentation, la détection et la reconnaissance comme des tâches indépendantes. Cette approche compartimentée limite le partage d’informations entre les tâches et augmente les défis liés à l’analyse d’images biomédicales variées et complexes.
Par exemple, les méthodes traditionnelles de segmentation s’appuient souvent sur des boîtes englobantes (bounding box) manuelles pour identifier les zones d’intérêt. Cette exigence pose problème pour des objets aux formes irrégulières ou en grand nombre (tels que toutes les cellules dans une image pathologique globale). De plus, négliger les interactions entre la détection d’objets et la reconnaissance sémantique (informations métadonnées) entraîne une optimisation insuffisante des résultats de segmentation.
Pour répondre à ces défis, une équipe de chercheurs de Microsoft Research, Providence Genomics et de l’Université de Washington a proposé un modèle fondamental pour la biomédecine, appelé “BiomedParse”. Ce modèle vise à résoudre les trois tâches principales dans un cadre unifié tout en prenant en charge neuf modalités d’imagerie différentes. Cet article, publié dans le numéro de janvier 2025 de Nature Methods, présente un workflow inédit pour l’analyse efficace des images biomédicales.
Résumé de l’étude et processus de travail
L’article introduit “BiomedParse”, un cadre novateur d’interprétation d’image (image parsing) qui réunit les tâches de segmentation, détection et reconnaissance. Pour entraîner ce modèle, l’équipe de recherche a construit un grand ensemble de données appelé “BiomedParseData”. Ce dataset couvre neuf modalités d’imagerie, notamment la tomodensitométrie (CT), l’imagerie par résonance magnétique (IRM), les images pathologiques (pathology), l’échographie (ultrasound), entre autres. Voici une description détaillée du processus d’étude :
Construction et prétraitement des données
L’équipe de recherche a intégré 45 ensembles de données de segmentation biomédicale accessibles publiquement, générant environ 3,4 millions de triplets image–masque de segmentation–étiquette sémantique. En combinant le modèle linguistique GPT-4, les descriptions en langage naturel (souvent désorganisées) des objets dans les données ont été alignées avec une ontologie biomédicale standardisée qui comprend :
- Trois catégories principales : organes, anomalies et histologie.
- 15 types de méta-objets : par exemple, “rein droit”, “tumeur”.
- 82 types d’objets spécifiques.
En outre, l’équipe a utilisé GPT-4 pour générer des descriptions textuelles synonymiques, augmentant ainsi la diversité et la robustesse des descriptions. Cela permet au modèle de traiter efficacement différentes formulations textuelles tout en conservant une compréhension précise des désignations cibles.
Pour répondre également aux exigences de l’analyse des modalités d’imagerie 3D (comme le CT et l’IRM), les volumes tridimensionnels ont été prétraités en tranches bidimensionnelles, afin de garantir une structure d’entrée homogène avec les autres modalités.
Architecture du modèle BiomedParse
BiomedParse adopte une conception modulaire, avec les composants principaux suivants :
Encodeur d’image : extrait les caractéristiques des images haute résolution. Il repose sur des technologies avancées telles que les réseaux Focal Modulation Network (Focal) ou Segment Anything Model Vision Transformer (SAM-ViT).
Encodeur de texte : traite les invites textuelles (text prompts) fournies par l’utilisateur pour produire des vecteurs d’embedding linguistique. Il peut être initialisé avec PubMedBERT.
Décodage des masques : génère les masques de segmentation en prédisant la probabilité que chaque pixel appartienne à l’objet défini dans l’invite textuelle.
Classifieur méta-objet : assure la classification des objets en termes de sémantique.
BiomedParse utilise l’apprentissage conjoint (joint learning), partageant les informations entre la segmentation et la classification sémantique, ce qui améliore la prédiction des objets complexes.
Entraînement et optimisation du modèle
Pour entraîner BiomedParse, l’équipe a utilisé BiomedParseData, divisant aléatoirement les données en un ensemble d’entraînement (80 %) et un ensemble de test (20 %). Pendant l’entraînement, les fonctions de perte suivantes ont été optimisées :
- Une perte d’entropie croisée binaire (Binary Cross-Entropy Loss) et une perte de Dice, pour la segmentation.
- Une perte d’entropie croisée catégorique (Categorical Cross-Entropy Loss), pour la classification sémantique.
L’entraînement entier a nécessité un matériel de haute performance, occupant 16 GPU NVIDIA A100, avec un temps total de 58 heures.
Résultats de l’étude et principales découvertes
Précision et extensibilité de la segmentation multinationale
Sur un échantillon de test de 102 855 instances, BiomedParse a établi de nouveaux records de performance dans la segmentation, affichant un score moyen de Dice de 0,857, soit une amélioration de 39,6 % par rapport à Medsam, le meilleur modèle compétitif. En particulier, pour les objets aux formes complexes (comme les cellules anormales et les zones tumorales), BiomedParse surpasse significativement les autres méthodes.
En outre, BiomedParse ne nécessite qu’une invite textuelle pour effectuer la segmentation, contrairement à Medsam et SAM, qui nécessitent des boîtes englobantes précises pour chaque objet. Dans un test impliquant 42 images pathologiques du côlon, une simple invite textuelle, “structure glandulaire dans la pathologie du côlon”, a permis d’obtenir un score médian de Dice de 0,942, tandis que Medsam a exigé la définition de 430 boîtes englobantes et n’a pas atteint cette précision.
Capacité à détecter des objets de formes irrégulières
Pour valider sa capacité à détecter des objets de formes complexes, les chercheurs ont défini trois métriques quantitatives : le ratio convexité (Convex Ratio), le ratio boîte (Box Ratio), et le ratio d’inertie rotationnelle (Rotational Inertia). Ils ont constaté que les performances de BiomedParse sont hautement corrélées avec ces métriques, illustrant des améliorations significatives, en particulier pour les petits objets ou ceux à formes complexes.
Performance dans la reconnaissance d’objets
Dans la tâche de reconnaissance, BiomedParse peut détecter tous les types d’objets dans une image, grâce à son ontologie de segmentation intégrée. Les tests montrent un score moyen pondéré de Dice de 0,94, bien supérieur à Grounding DINO (limitée à la génération de boîtes englobantes), qui présente une diminution significative des performances lorsqu’un grand nombre d’objets est présent.
De plus, BiomedParse peut identifier et rejeter des invites textuelles invalides (par exemple, demander à segmenter un “ventricule gauche du cœur” dans une image dermoscopique) grâce à des méthodes statistiques robustes, évitant ainsi les erreurs de segmentation dues à des informations erronées.
Importance et points forts de l’étude
Innovation du cadre unifié : BiomedParse intègre pour la première fois les tâches de segmentation, détection et reconnaissance dans un cadre cohérent, surmontant les limites des approches traditionnelles fragmentées.
Absence de nécessité d’entrée en boîtes englobantes : Des invites textuelles suffisent pour atteindre une segmentation précise, réduisant considérablement les charges de travail utilisateur.
Superbe performance sur des formes complexes : Capable de généraliser efficacement aux objets tels que les tumeurs irrégulières ou les cellules dispersées.
Extensibilité et applicabilité pratique : Lors de tests sur des données réelles provenant du Providence Health System, BiomedParse a annoté correctement les cellules cancéreuses et immunitaires, montrant son potentiel dans des applications cliniques concrètes.
BiomedParse offre une solution efficace, précise et universelle pour l’analyse d’images biomédicales, ouvrant la voie à des découvertes biomédicales à grande échelle basées sur l’imagerie. À l’avenir, avec son extention prévue aux images tridimensionnelles et aux systèmes de dialogue interactifs, ce modèle pourrait révolutionner davantage les applications cliniques et la recherche scientifique.