Détection d'anomalies des sons cardiaques grâce à une collaboration multi-institutionnelle: Introduction d'un cadre d'apprentissage fédéré

Une étude de collaboration inter-agences sur la détection des anomalies des bruits cardiaques en utilisant l’apprentissage fédéré

Une étude de collaboration inter-agences sur la détection des anomalies des bruits cardiaques en utilisant l’apprentissage fédéré

Contexte académique

Les maladies cardiovasculaires (CVDs) sont devenues l’une des principales causes de mortalité, notamment chez les personnes âgées. Les problèmes de santé cardiovasculaire requièrent une attention particulière de la part de la société. Le dépistage précoce, le diagnostic et la gestion des pronostics sont essentiels pour prévenir les hospitalisations. Les signaux auscultatoires cardiaques contiennent une riche information physiologique et pathologique. Le diagnostic précoce des CVDs par ces signaux présente des avantages tels que la facilité d’obtention, la large disponibilité et le caractère non invasif. Ces dernières années, l’application de l’intelligence artificielle (IA) dans le diagnostic assisté par les signaux auscultatoires a suscité un large intérêt. Les techniques automatisées d’auscultation cardiaque aident à évaluer rapidement et efficacement l’état du cœur. Cependant, les études existantes négligent les problèmes de sécurité des données et de confidentialité, notamment lors de la collaboration entre plusieurs institutions.


Source de l’étude

Cet article est rédigé par Wanyong Qiu, Chen Quan et d’autres, venant d’institutions académiques renommées telles que l’Université Polytechnique de Pékin, le Laboratoire de Physiologie de l’Éducation de l’Université de Tokyo au Japon, et l’Imperial College de Londres au Royaume-Uni. L’article a été publié en 2023 dans IEEE Transactions on Biomedical Engineering.


Objectifs et méthodes de l’étude

Problème de fond

Les modèles d’IA actuels nécessitent généralement une grande quantité de données pour l’entraînement, ce qui peut soulever des problèmes de confidentialité. De plus, l’échange de données n’est pas permis entre institutions médicales, ce qui entraîne le problème d’îlots de données et limite le développement des modèles d’IA médicale capables de formation collaborative entre centres multiples.

Méthode de recherche

Pour résoudre ces problèmes, cet article propose une stratégie optimisée basée sur l’apprentissage fédéré (Federated Learning, FL), visant à utiliser la base de données auscultatoires multi-centres pour entraîner les modèles sans divulguer d’informations. La recherche utilise principalement l’apprentissage fédéré horizontal (Horizontal Federated Learning, HFL) et l’apprentissage fédéré vertical (Vertical Federated Learning, VFL), le premier résolvant les problèmes de confidentialité et le second ceux de l’interprétabilité du modèle et de la rareté des données.

Spécifiquement, cet article innove dans les domaines suivants :

  1. Configuration du modèle HFL : Utiliser HFL pour traiter les données auscultatoires multi-institutions, aligner les espaces de caractéristiques et agréger les ID de manière sécurisée entre les participants de différentes institutions médicales.
  2. Configuration du modèle VFL : Unir les espaces de caractéristiques des différentes institutions, former et évaluer le modèle VFL, résolvant ainsi le problème du manque d’étiquettes de données.
  3. Interprétabilité du modèle : Utiliser les valeurs de Shapley pour interpréter le modèle VFL, équilibrant l’interprétabilité du modèle et la confidentialité des données.

Processus de l’étude

Description et prétraitement des données

Les données ont été obtenues à partir de bases de données auscultatoires de plusieurs institutions médicales, telles que la base de données MIT et la base de données de l’Université d’Aalborg. Les données sont marquées en tant qu’échantillons normaux et anormaux. Le prétraitement des données comprend le traitement des signaux, l’extraction des caractéristiques et les stratégies d’équilibrage des données.

Modèle HFL

Un cadre d’apprentissage fédéré horizontal a été établi en utilisant XGBoost comme modèle de base. Par une méthode d’agrégation sécurisée des ID de caractéristiques, les espaces de caractéristiques ont été alignés, avec les étapes spécifiques suivantes :

  1. Le serveur fédéré génère une clé symétrique et la distribue aux institutions participantes.
  2. Chaque institution participante chiffre son ensemble d’ID de caractéristiques avec la clé publique et l’envoie au serveur.
  3. Le serveur fédéré convertit les résultats chiffrés avec la clé privée et partage les résultats agrégés avec les institutions participantes.
  4. Chaque institution forme localement le modèle et envoie les mises à jour incrémentales au serveur.

Modèle VFL

Dans le contexte d’espaces de caractéristiques différents mais d’espaces d’échantillons identiques, le modèle VFL construit un modèle global via une coopération entre plusieurs parties. Les étapes spécifiques sont les suivantes :

  1. Les données sont divisées en parties clients et hôtes, avec garantie que l’espace d’échantillons est identique mais l’espace de caractéristiques différent.
  2. Chaque partie effectue l’ingénierie des caractéristiques et forme le modèle en protégeant la confidentialité.
  3. Conformément au protocole de protection de la confidentialité, les parties évaluent et infèrent conjointement le modèle.

Principaux résultats et conclusion

Résultats du modèle HFL

En présence de conditions non-iid et de déséquilibre de l’échantillon, le modèle HFL montre une performance excellente sur le jeu de test. Les meilleurs paramètres du modèle, obtenus après 50 réplications d’expériences, sont de 30 arbres et une hauteur de 3. La sensibilité est de 62,1% et la spécificité de 72,8%, toutes deux supérieures aux modèles XGBoost traditionnels.

Résultats du modèle VFL

Le modèle VFL présente de bons résultats lorsque les bases de données disposent d’un volume d’échantillons suffisant, comme les bases de données de l’Université d’Aalborg et de l’Université Polytechnique de Dalian. Sa performance approche celle des modèles d’apprentissage centralisé. Néanmoins, en raison des différences significatives de distribution des données dans la base de données df, les résultats du modèle VFL sont inférieurs aux attentes. La valeur de la distance moyenne maximale (MMD) montre des différences de distribution notables entre la base de données df et les autres bases de données.

Interprétabilité des modèles

L’interprétation du modèle VFL par les valeurs de Shapley préserve la confidentialité des données. Dans les bases de données auscultatoires médicales multi-centres, les caractéristiques fédérées augmentent la contribution des caractéristiques du modèle global à la distribution des sorties du modèle. La méthode de binning des valeurs des caractéristiques protège la confidentialité des données de l’hôte, offrant au modèle VFL la capacité d’interprétation et d’évaluation équitable de la contribution des données.

Importance de l’étude

Cet article est le premier à appliquer l’apprentissage fédéré dans des scénarios médicaux réels pour optimiser les modèles auscultatoires cardiaques, atteignant de bons résultats de classification tout en protégeant la confidentialité des patients. Les résultats de l’étude montrent que l’apprentissage fédéré a une excellente performance dans la détection des anomalies des bruits cardiaques, et promet d’encourager l’application généralisée des systèmes médicaux intelligents fédérés, en particulier dans les scénarios exigeant une haute protection de la confidentialité des données.


Points forts de l’étude

  1. Entraînement de modèles collaboratifs multi-agences : Réalisation de l’apprentissage fédéré dans des bases de données médicales multi-centres tout en protégeant la confidentialité des données.
  2. Interprétabilité du modèle : Explication du modèle VFL par les valeurs de Shapley, conciliant interprétabilité des modèles et confidentialité des données.
  3. Valeur d’application réelle : Fournir un guide pratique pour l’utilisation de l’apprentissage fédéré dans la classification des bruits cardiaques, revêtant une valeur importante pour le développement des systèmes de soins intelligents.

Directions futures de recherche

  1. Standardisation des données : Établir des bases de données auscultatoires standardisées pour résoudre les problèmes d’hétérogénéité des données et du bruit sur la performance des modèles.
  2. Conception de mécanismes incitatifs pour l’apprentissage fédéré : Utiliser les valeurs de Shapley pour mesurer la contribution des caractéristiques, concevoir des mécanismes incitatifs raisonnables encourageant davantage de participants à se joindre à l’apprentissage fédéré.
  3. Chiffrement et coûts de communication : Explorer davantage de nouvelles méthodes de chiffrement comme la confidentialité différentielle, réduire les coûts de communication de l’apprentissage fédéré et améliorer la faisabilité des modèles.