Algorithme d'apprentissage de la structure causale locale fédérée

Protection de la confidentialité des données et apprentissage causal : une avancée dans l’apprentissage des structures causales locales basées sur l’apprentissage fédéré

Avec le développement rapide des mégadonnées et de l’intelligence artificielle, la manière d’analyser et de déduire efficacement des relations causales dans des domaines sensibles tels que la médecine ou les finances, tout en garantissant la confidentialité des données, est devenue un défi clé pour le milieu académique et industriel. L’article intitulé Federated Local Causal Structure Learning (Apprentissage des structures causales locales fédérées) se concentre directement sur cette problématique cruciale. Il introduit un algorithme appelé FedLCS, conçu pour apprendre des structures causales locales dans un environnement d’apprentissage fédéré (Federated Learning). Cette recherche résout de manière innovante le dilemme consistant à garantir la confidentialité des données tout en réalisant des inférences causales, ouvrant ainsi la voie à de nombreuses applications pratiques en médecine, économie et autres domaines.

Contexte de la recherche et définition du problème

L’apprentissage des structures causales (Causal Structure Learning, CSL) permet de déduire les relations causales entre des variables à partir de données observationnelles, généralement représentées sous la forme d’un graphe orienté acyclique (Directed Acyclic Graph, DAG). Dans de nombreux cas pratiques, les chercheurs n’ont pas besoin d’apprendre la structure causale complète, mais se concentrent sur les relations causales entourant une variable cible spécifique, à savoir les causes directes (Direct Causes) et les effets directs (Direct Effects). C’est ce que l’on appelle l’apprentissage des structures causales locales (Local Causal Structure Learning, LCS). Comparé à la construction d’un graphe causal global, le LCS permet d’éviter un gaspillage de ressources et une complexité inutile, en particulier dans les scénarios impliquant des données limitées ou des variables en haute dimension.

Cependant, les méthodes traditionnelles de LCS exigent généralement de centraliser plusieurs ensembles de données ou de partager directement les données entre organisations. Dans un contexte où la confidentialité des données devient une exigence de plus en plus pressante, cela devient difficilement acceptable. Par exemple, les dossiers médicaux électroniques des patients ne peuvent pas être partagés directement entre hôpitaux en raison des préoccupations relatives à la confidentialité, ce qui complique l’analyse des données médicales interinstitutionnelles. La méthode proposée dans cet article cherche à résoudre ce dilemme : comment apprendre des structures causales locales dans un cadre d’apprentissage fédéré tout en protégeant la confidentialité des données.

Source et informations sur la publication

Cet article de recherche a été écrit par Kui Yu, Chen Rong et d’autres chercheurs issus des écoles d’informatique et des technologies de l’information de l’Hefei University of Technology et de l’Université de Shanxi. L’article a été soumis en octobre 2023 et publié en ligne le 16 janvier 2025 dans la revue académique Science China Information Sciences.

Méthodologie et processus de travail

L’algorithme innovant proposé, FedLCS, comprend trois procédures clés : Apprentissage fédéré des squelettes locaux (FLSKE), Orientation fédérée des squelettes locaux (FLSORI) et Extension fédérée avec orientation par rétroaction (FLEORI). Ensemble, elles forment un cadre complet pour l’inférence causale.

1. Apprentissage fédéré des squelettes locaux (FLSKE)

Le sous-processus FLSKE applique une stratégie d’apprentissage fédéré par couches pour apprendre, tout en préservant la confidentialité, le squelette causal local (Skeleton, un graphe non orienté montrant les relations entre variables). Les étapes principales sont les suivantes :

  • Étape 1 : Apprentissage initial du client
    Chaque client effectue le processus d’apprentissage du squelette localement et indépendamment sur son propre ensemble de données. Le squelette initial est composé des arêtes non orientées entre la variable cible et toutes les variables candidates.

  • Étape 2 : Partage et agrégation des paramètres
    Les clients envoient les résultats de leurs squelettes locaux au serveur central, où un mécanisme de vote fédéré est utilisé pour agréger les résultats et conserver uniquement les arêtes qui répondent à un seuil prédéfini. Le serveur renvoie ensuite le squelette consolidé aux clients.

  • Étape 3 : Apprentissage itératif
    Le squelette consolidé devient le squelette initial de la couche suivante. Les clients répètent le processus d’apprentissage et de partage jusqu’à ce que le squelette se stabilise ou que le nombre de variables candidates soit inférieur au numéro de couche.

2. Orientation fédérée des squelettes locaux (FLSORI)

Une fois le squelette local appris, FLSORI identifie les structures en V (V-Structures) et applique des règles de Meek pour orienter les arêtes non dirigées. Les défis majeurs incluent :

  • Extension des informations sur les structures en V
    FLSORI enrichit les informations des squelettes en étendant l’apprentissage aux ensembles parent-enfant des variables candidates ainsi qu’aux ensembles de séparation associés. Cela garantit une meilleure précision dans l’identification des structures en V.

  • Apprentissage des ensembles de séparation cohérents
    Chaque client identifie les ensembles de séparation localement. Le serveur agrège ces résultats et sélectionne, sur la base de la valeur p la plus élevée, l’ensemble de séparation cohérent pour chaque structure candidate en V, ce qui garantit une identification précise des structures.

3. Extension fédérée avec orientation par rétroaction (FLEORI)

Pour les arêtes non orientées restantes, FLEORI étend progressivement les ensembles parent-enfant des variables candidates via une méthodologie récursive. Cela permet d’identifier de nouvelles structures en V et de rétro-propager les informations directionnelles vers la variable cible. Ce processus évite la complexité liée à l’apprentissage des DAG globaux, en se concentrant uniquement sur les relations causales locales nécessaires.

Données d’échantillon et analyses

Les données expérimentales incluent six ensembles de données de réseaux causaux de référence (par exemple, Alarm et Gene) et six ensembles de données synthétiques, totalisant 5000 échantillons. Dans un environnement fédéré, ces échantillons sont répartis aléatoirement entre différents clients, chaque client conservant un sous-ensemble unique pour éviter tout partage direct de données.

Les performances de FedLCS ont été évaluées à l’aide de deux métriques : le score F1 (exactitude structurelle) et la distance de Hamming structurelle (SHD, mesurant les erreurs structurelles). Les résultats montrent que FedLCS surpasse presque tous les algorithmes comparés dans la majorité des scénarios. Ses scores d’exactitude structurelle sont significativement plus élevés, et ses taux d’erreur structurelle nettement inférieurs.

Résultats et conclusions

Principaux résultats :
- Pendant la phase d’apprentissage des squelettes, la stratégie de vote et d’agrégation fédérée de FedLCS réduit significativement l’effet perturbateur des variables bruitées. - La stratégie des ensembles de séparation cohérents améliore substantiellement la précision d’identification des structures en V, grâce à un échange d’informations mieux structuré. - Par rapport aux algorithmes orientés vers les structures globales (par exemple FedPC et NOTears-ADMM), FedLCS démontre une performance supérieure sur des données haute dimension tout en offrant un avantage significatif en termes de temps d’exécution.

Signification de l’étude :
Cette recherche représente une avancée majeure dans le domaine de la protection de la confidentialité et de l’inférence causale. Elle démontre la faisabilité et l’efficacité de l’apprentissage des structures causales locales en l’absence de partage direct de données. FedLCS peut être appliqué dans des domaines variés tels que la santé et la finance, par exemple pour identifier des facteurs de maladies chroniques via une collaboration entre hôpitaux, offrant ainsi des bases solides pour élaborer des politiques de santé publique.

Points forts et innovations :
- Introduction du premier cadre pour l’apprentissage des structures causales locales basé sur l’apprentissage fédéré. - Conception innovante de stratégies telles que l’apprentissage par couches avec vote fédéré et les ensembles de séparation cohérents, améliorant l’efficacité et la précision. - Une procédure d’extension fédérée et d’orientation par rétroaction permettant une mise à jour dynamique des directions causales pendant l’apprentissage.

Perspectives et améliorations

Les auteurs reconnaissent que le mécanisme de décision actuel n’intègre pas les variations de qualité des données entre les clients. De futures recherches pourraient explorer des stratégies pondérées prenant en compte cette qualité. En outre, l’optimisation des stratégies actuelles de sélection des arêtes pourrait renforcer la robustesse et les garanties des performances.

FedLCS ouvre de nouvelles perspectives pour l’apprentissage des structures causales locales, offrant une solution efficace et respectueuse de la confidentialité dans une ère où la protection des données est primordiale.