Distillation principielle des données phénotypiques de la UK Biobank révèle la structure sous-jacente de la variation humaine

Dans ce rapport, nous évaluons en détail un article scientifique publié dans la revue Nature Human Behaviour, intitulé « Extraction synthétique des données phénotypiques de la UK Biobank révèle la structure sous-jacente de la variation humaine ». Cette recherche est réalisée par Caitlin E. Carey, Rebecca Shafee, Robbee Wedow et al., avec une date de publication en ligne le XX-XX-XXXX, disponible à l’adresse https://doi.org/10.1038/s41562-024-01909-5.

Contexte et signification de la recherche

Avec les investissements publics et privés dans la collecte et l’intégration à grande échelle de données, des entrepôts de données appelés biobanques sont récemment apparus, associant des résultats de santé à des échantillons biologiques de milliers d’individus. Les biobanques contiennent des milliers de variables riches et détaillées extraites des dossiers de santé électroniques (EHR), des mesures d’enquêtes auto-rapportées, des tests de laboratoire et des évaluations physiques et cognitives. Bien que ces ressources immenses aient révolutionné la découverte en santé humaine et en maladie, l’ampleur et la profondeur des données peuvent masquer les modèles plus vastes présents dans les biobanques. Pour une meilleure compréhension et élargissement des découvertes, il est nécessaire d’identifier des structures cachées et de réduire les milliers de variables à un nombre plus gérable.

La réduction dimensionnelle est une tâche courante dans de nombreux domaines et diverses méthodes ont été appliquées aux données des biobanques. Cependant, l’analyse factorielle n’a pas encore été largement adoptée dans l’analyse des biobanques ; cette méthode modélise les corrélations entre variables observées comme une ou plusieurs continuums partagés de facteurs latents. Basée sur des modèles, elle facilite plus directement l’inférence statistique par rapport à des résumés descriptifs (tels que l’analyse en composantes principales) ou à des solutions de “boîte noire”, et optimise l’extraction de facteurs en relation simple avec les éléments observés.

Dans cette étude, nous avons appliqué et amélioré la méthode de l’analyse factorielle à un ensemble élargi de phénotypes multimodaux de la biobanque, examinant si les structures identifiées étaient informatives pour révéler des relations potentiellement masquées. Les scores de facteurs renforcent les analyses liant données phénotypiques et génétiques.

En outre, cette recherche insiste sur l’importance de considérer la construction de la nature intégrative des ensembles de phénotypes humains interconnectés, tels que le statut socio-économique, les traumatismes ou l’activité physique en évaluant les modèles de santé publique.

Auteurs de la recherche et institutions

Les principaux auteurs incluent Caitlin E. Carey de l’Université Harvard Medical School. Les autres chercheurs proviennent de différentes institutions de recherche telles que Rebecca Shafee, Robbee Wedow, Amanda Elliott, Duncan S. Palmer, John Compitello, Masahiro Kanai, Liam Abbott, Patrick Schultz, Konrad J. Karczewski, appartenant à des universités comme le système de l’Université de Californie, l’Université de New York, le Broad Institute et d’autres centres de recherche collaboratifs.

Processus de recherche et découvertes

Nous rapportons ci-après chaque étape du processus de recherche et les principales découvertes.

Processus de recherche

Le processus de recherche global comprend plusieurs étapes principales : a) Sélection des sujets de l’étude : des individus de l’ascendance asiatique non apparentés ont été sélectionnés pour l’échantillon. b) Traitement et préparation des données : les diverses données phénotypiques de la UK Biobank ont été traitées et organisées. c) Détermination de la structure du modèle : une méthode d’analyse factorielle en plusieurs étapes a été adoptée, y compris l’analyse factorielle exploratoire (EFA) et l’analyse factorielle confirmatoire (CFA). d) Calcul des scores de facteurs : sur la base du modèle de facteurs final, les scores de facteurs latents pour chaque individu ont été calculés.

Principales découvertes

Les principales découvertes de cette étude sont les suivantes : 1) Identification de 35 facteurs latents orthogonaux couvrant 505 objets observés, saisissant des classifications de maladies connues, décomposant les éléments du statut socio-économique, soulignant la corrélation des états mentaux avec la santé et améliorant les mesures de comportement pro-santé. 2) Les scores de facteurs ont montré des associations avec la mortalité future, les signaux génétiques, et les résultats de santé. 3) La corrélation génétique et l’enrichissement génétique des facteurs ont révélé les liens entre biomarqueurs et maladies.

Conclusion de la recherche et sa valeur

En adaptant les données des biobanques à grande échelle et en extrayant des structures sous-jacentes explicatives et opérationnelles via l’analyse factorielle, cette étude souligne la valeur de la réduction dimensionnelle principielle et révèle des aperçus importants de la variation humaine. Les résultats mettent en lumière l’importance de se concentrer sur la structure de la variation humaine, fournissant un soutien crucial pour d’autres recherches sur les découvertes en santé et bien-être.

Cette recherche est particulièrement significative pour le domaine médical car les facteurs extraits, capturant les diagnostics, causes et conséquences telles que l’asthme et les maladies coronariennes d’une manière sans hypothèse préalable et axée sur les données, simplifient et clarifient la classification des maladies à partir de relations structurelles plus larges.

De plus, l’héritabilité des scores de facteurs et l’augmentation de la puissance des découvertes génétiques indiquent que plusieurs mesures inter-phénotypiques peuvent être considérées lors de l’étude des phénotypes humains complexes, en particulier ceux qui ne peuvent être capturés par des tests expérimentaux.

Points saillants et caractéristiques de l’étude

En appliquant des techniques de réduction de données basées sur des modèles à des centaines d’articles diversifiés dans les biobanques, cette étude a réussi à distiller le paysage phénotypique en constructions latentes compréhensibles lui conférant des axes de variation interprétables.

Il est notable que cette décomposition ait révélé que le statut socio-économique est intrinsèquement lié à divers facteurs, ce qui soutient des hypothèses de longue date sur la séparation des éléments d’éducation, de revenu, de profession et d’autres éléments de statut. Cela pose les bases pour identifier les construits de ces facteurs dans différents contextes sociopolitiques, culturels et diagnostiques.

Résumé

Les résultats de l’étude montrent que l’analyse factorielle principielle, en modélisant les corrélations entre ensembles de données phénotypiques, offre une nouvelle perspective et un outil crucial pour comprendre les relations complexes entre la santé humaine, le comportement et les maladies.