Prédiction de l'asthme via un classificateur amélioré par un graphe d'affinité : Une approche d'apprentissage automatique basée sur les biomarqueurs sanguins de routine

Prédiction de l’asthme par des classificateurs améliorés par des graphes d’affinité : Une approche d’apprentissage automatique basée sur les biomarqueurs sanguins routiniers

Introduction

L’asthme est une maladie chronique du système respiratoire affectant environ 235 millions de personnes dans le monde. Selon l’Organisation mondiale de la santé (OMS), la principale caractéristique de l’asthme est l’inflammation des voies respiratoires, ce qui provoque chez les patients des symptômes tels que la respiration sifflante, la dyspnée et l’oppression thoracique. Un diagnostic précis et rapide est crucial pour gérer et traiter efficacement l’asthme. Cependant, les méthodes traditionnelles de diagnostic de l’asthme combinent l’historique médical, les examens physiques et les tests de la fonction pulmonaire, ce qui rend le diagnostic coûteux. De plus, les symptômes atypiques chez certains patients peuvent prolonger le temps de diagnostic ou entraîner des erreurs. En outre, le diagnostic de l’asthme chez les enfants est particulièrement difficile, et la caractéristique chronophage des méthodes traditionnelles pourrait exacerber ce problème.

Avec le développement de l’apprentissage automatique (Machine Learning, ML), un immense potentiel est apparu dans l’analyse des données médicales, l’identification de motifs et la génération de prédictions. Cette étude vise à améliorer l’exactitude de la prédiction de l’asthme en utilisant un classificateur amélioré par des graphes d’affinité (Affinity Graph Enhanced Classifier, AGEC).

Source de l’article

Cet article de recherche a été écrit par Dejing Li, Stanley Ebhohimhen Abhadiomhen, Dongmei Zhou, Xiang-Jun Shen, Lei Shi et Yubao Cui et a été publié dans le 《Journal of Translational Medicine》 Volume 22, Numéro 100, en 2024. Les institutions impliquées incluent l’Hôpital du Peuple affilié à l’Université médicale de Nanjing, l’Université de Jiangsu, et l’Université du Nigeria, entre autres. Cet article a été accepté et publié le 6 janvier 2024 et est disponible en accès libre.

Processus de recherche

Collecte des données

Le jeu de données clinique utilisé dans l’étude contient 152 échantillons provenant de patients asthmatiques de l’Hôpital Shuguang affilié à l’Université de Médecine Traditionnelle Chinoise de Shanghai. Les données comprennent des enregistrements de patients âgés de 20 à 100 ans, dont 18,4% des échantillons sont âgés de 20 à 40 ans, 47,4% sont âgés de 50 à 69 ans et 34,2% ont plus de 70 ans. Le jeu de données comprend également la proportion de sexe, avec 40% d’hommes et 60% de femmes.

Chaque enregistrement extrait 24 indicateurs, y compris les différences dans les tests sanguins routiniers et les indices érythrocytaires. Les indicateurs candidats utilisés dans le programme de classification incluent le nombre de leucocytes (WBC), le pourcentage de neutrophiles (NE%), le pourcentage de lymphocytes (LY%), le pourcentage de monocytes (MO%), le pourcentage d’éosinophiles (EO%), le pourcentage de basophiles (BA%), le nombre de globules rouges (RBC), l’hémoglobine (HGB), l’hématocrite (HCT), le volume corpusculaire moyen (MCV), le compte de plaquettes (PLT), etc.

Construction du modèle

Un modèle d’apprentissage multi-étiquette traditionnel (Multi-label Learning Model) est utilisé pour apprendre la cartographie des dimensions des caractéristiques aux dimensions des étiquettes. Le nouveau modèle réduit la dimension de l’espace des caractéristiques en introduisant la matrice de projection P tout en capturant les relations intrinsèques entre les échantillons à l’aide du graphe d’affinité W.

Les formules sont les suivantes :

[ \begin{aligned} &1. \ \text{Objectif d’optimisation} \ \left(\min||y-zw||^2_f+||z||^2f\right) \ &2. \ \text{Introduction de la matrice de relations} \ W \ \left(\sum{i,j}||P(x_i-x_j)||^2f W{ij}) \ &3. \ \text{Combinaison de la matrice de projection} \ P \text{et du modèle d’optimisation} \ \Rightarrow w \ &4. \ \text{Construction du nouveau classificateur} \ Z \text{pour obtenir le modèle optimisé} \end{aligned}]

Optimisation du modèle

En utilisant la méthode des multiplicateurs de Lagrange augmentés (Augmented Lagrange Multiplier, ALM), un algorithme d’optimisation est dérivé pour chaque variable en fonction de la fonction de Lagrange. Le modèle optimisé est ainsi obtenu et les hyperparamètres sont ajustés. En minimisant la fonction de perte, on obtient la matrice de projection P et la matrice du graphe d’affinité W.

Résultats de l’étude

Les résultats expérimentaux montrent que l’AGEC présente une précision de prédiction du l’asthme significativement supérieure aux algorithmes traditionnels d’apprentissage multi-étiquette (MLFE), à la machine à vecteurs de support (SVM), et aux autres modèles comme la machine à régularisation exclusive (ERM). En particulier, la précision de prédiction de l’AGEC est de 72,50%, nettement supérieure aux 64,01% de la régression à vecteurs de support (SVR) et aux 61,02% de l’Adaboost amélioré.

De plus, en utilisant la courbe ROC et la valeur AUC (Area Under Curve) pour évaluer la performance des modèles, la valeur AUC de l’AGEC est de 74,01%, nettement supérieure à celle des autres modèles. En outre, les valeurs p des résultats montrent que les différences entre les modèles sont statistiquement significatives, ce qui prouve la supériorité et l’utilité de l’AGEC.

Matrice des erreurs

La matrice des erreurs montre que l’AGEC a une ombre plus foncée dans les résultats de classification, indiquant une meilleure classification correcte, tandis que les ombres sur les cellules hors diagonale sont moins nombreuses, ce qui signifie que les erreurs de classification sont moins fréquentes.

Impact des différents groupes de caractéristiques

L’expérience a également comparé l’impact des sous-ensembles de caractéristiques et a trouvé que l’exactitude du modèle est la plus élevée (78,18%) sur le premier groupe de caractéristiques. Cela indique que le choix approprié des caractéristiques est crucial pour améliorer les performances du modèle de classification.

Conclusion et signification

En utilisant la méthode AGEC proposée dans cette étude, le modèle d’apprentissage automatique basé sur des graphes d’affinité montre des améliorations et avantages significatifs dans la prédiction de l’asthme. Cette recherche propose une nouvelle méthode pour prédire plus précisément l’asthme en analysant des biomarqueurs sanguins routiniers, ce qui pourrait aider la communauté clinique à prédire et gérer les patients asthmatiques plus efficacement, réduisant ainsi les risques de détérioration et d’hospitalisation.

De plus, cette méthode est axée sur les données et offre une extensibilité pour d’autres tâches de prédiction de maladies, fournissant ainsi un cadre pour de futures recherches. En fin de compte, l’application potentielle de l’AGEC dans la détection précoce de l’asthme pourrait apporter des interventions plus actives et ciblées, optimisant ainsi les soins aux patients et réduisant les coûts médicaux.

Contributions et soutien financier de l’étude

Cette étude a été financée par le programme des talents de haute qualité du lac Taihu de Wuxi (2020THRC-GD-7), le programme 333 de la province du Jiangsu (202221001) et le projet d’attaque de la science et de la technologie “Lumière du lac Taihu” du Bureau des sciences et des technologies de Wuxi (Y20212006). Toutes les données et le code peuvent être obtenus auprès de l’auteur correspondant. Le protocole expérimental a été élaboré conformément aux directives éthiques de la Déclaration d’Helsinki et a été approuvé par le comité d’éthique de l’Hôpital Shuguang affilié à l’Université de Médecine Traditionnelle Chinoise de Shanghai.