Modèle de prédiction de toxicité aquatique multi-tâches basé sur la fusion de caractéristiques multi-niveaux
Contexte académique
Avec la menace croissante des composés organiques sur la pollution environnementale, il devient crucial d’étudier les réactions toxiques des différents organismes aquatiques à ces composés. Ces recherches non seulement aident à évaluer l’impact écologique potentiel des polluants sur l’écosystème aquatique dans son ensemble, mais fournissent également une base scientifique importante pour la protection de l’environnement. Bien que les méthodes expérimentales traditionnelles puissent fournir certaines données, elles sont coûteuses, prennent beaucoup de temps et ont des difficultés à évaluer la toxicité des substances chimiques à grande échelle. Avec le développement rapide des technologies d’apprentissage profond, elles montrent une plus grande précision dans la prédiction de la toxicité aquatique, des vitesses de traitement des données plus rapides et une meilleure capacité de généralisation. Cependant, les méthodes existantes présentent encore des limites dans le traitement des données de haute dimension, en particulier dans la capture des structures moléculaires complexes et des interactions. Par conséquent, le développement d’un modèle d’apprentissage profond multitâche capable de prédire simultanément la toxicité de plusieurs organismes aquatiques est devenu un sujet de recherche important.
Source de l’article
Cet article est co-écrit par Xin Yang, Jianqiang Sun, Bingyu Jin et d’autres chercheurs, respectivement affiliés à l’Université de Science et Technologie de Liaoning, à l’Université de l’Académie Chinoise des Sciences, à l’Université de Linyi, entre autres. L’article a été publié en 2025 dans la revue Journal of Advanced Research sous le titre “Multi-task Aquatic Toxicity Prediction Model Based on Multi-level Features Fusion”.
Processus de recherche
Cette étude propose un modèle d’apprentissage profond multitâche nommé ATFPGT-Multi, utilisé pour prédire simultanément la toxicité aiguë de quatre espèces de poissons pour les composés organiques. Voici le processus détaillé de la recherche :
1. Préparation des données
Les chercheurs ont collecté les données de quatre espèces de poissons (le Crapet arlequin, la Truite arc-en-ciel, le Tête-de-boule noir et le Cyprinodon) à partir de la base de données ECOTOX. Pour assurer la qualité des données, les chercheurs ont normalisé les structures chimiques et éliminé les composés inorganiques, les sels et les valeurs aberrantes. Finalement, l’ensemble de données contenait respectivement 988, 1246, 938 et 346 échantillons de composés.
2. Extraction des caractéristiques moléculaires
Le modèle ATFPGT-Multi combine deux méthodes de représentation moléculaire : les empreintes moléculaires (Molecular Fingerprint) et les graphes moléculaires (Molecular Graph).
- Caractéristiques des empreintes moléculaires : Les chercheurs ont utilisé trois types d’empreintes moléculaires (Morgan, MACCS et RDKit) pour encoder les informations des composés et ont sélectionné les caractéristiques à l’aide d’un perceptron multicouche (MLP).
- Caractéristiques des graphes moléculaires : Les caractéristiques des graphes moléculaires ont été extraites en combinant un réseau de neurones à graphes (GNN) et un Transformer. Les chercheurs ont conçu des graphes locaux (Local Map) et globaux (Global Map) pour représenter la structure moléculaire et ont capturé les informations locales et globales des molécules à travers des couches de convolution graphique et des couches Transformer.
3. Fusion des caractéristiques et classification multitâche
Après avoir fusionné les caractéristiques des empreintes moléculaires et des graphes moléculaires, le modèle génère des caractéristiques globales via une couche entièrement connectée et crée des couches de sortie indépendantes pour chaque ensemble de données de poissons, permettant ainsi une classification multitâche.
4. Entraînement et évaluation du modèle
Les chercheurs ont utilisé une validation croisée à cinq plis pour évaluer les performances du modèle et ont utilisé des indicateurs tels que la précision (ACC), le rappel (RE), la précision (PR) et l’AUC pour l’évaluation. De plus, les chercheurs ont mené des expériences d’ablation pour étudier l’impact des différents modules sur les performances du modèle.
Résultats principaux
- Avantages de l’apprentissage multitâche : Par rapport au modèle monotâche ATFPGT-Single, ATFPGT-Multi a amélioré l’AUC de respectivement 9,8 %, 4 %, 4,8 % et 8,2 % sur les quatre ensembles de données de poissons. Cela montre que l’apprentissage multitâche améliore significativement les performances de prédiction du modèle en partageant les caractéristiques et en transférant les connaissances.
- Comparaison avec d’autres méthodes : Par rapport aux méthodes d’apprentissage machine traditionnelles et aux réseaux de neurones à convolution graphique (GCN), ATFPGT-Multi a démontré une plus grande précision sur tous les indicateurs d’évaluation, en particulier dans la capture des informations globales des molécules.
- Interprétabilité : ATFPGT-Multi peut identifier les fragments moléculaires associés à la toxicité grâce à un mécanisme d’attention, fournissant une interprétation intuitive de la relation entre la structure moléculaire et la toxicité.
Conclusion et signification
Le modèle ATFPGT-Multi améliore significativement la précision et la fiabilité de la prédiction de la toxicité aquatique en fusionnant les caractéristiques moléculaires multi-niveaux et en utilisant l’apprentissage multitâche. Ce modèle fournit non seulement un outil important pour évaluer les risques potentiels des composés organiques sur les écosystèmes aquatiques, mais offre également une base scientifique pour l’évaluation de la sécurité environnementale des produits chimiques et leur conception. De plus, l’interprétabilité du modèle lui confère un large potentiel d’application dans l’étude des mécanismes de toxicité et l’optimisation des produits chimiques.
Points forts de la recherche
- Apprentissage multitâche : En partageant les caractéristiques et en créant des couches de sortie indépendantes, le modèle peut prédire simultanément la toxicité de plusieurs espèces de poissons, améliorant ainsi sa capacité de généralisation.
- Fusion de caractéristiques multi-niveaux : En combinant les empreintes moléculaires et les caractéristiques des graphes moléculaires, le modèle peut capturer de manière plus complète les structures complexes et les interactions des molécules.
- Interprétabilité : Grâce au mécanisme d’attention, le modèle peut identifier les fragments moléculaires associés à la toxicité, offrant une nouvelle perspective pour l’étude des mécanismes de toxicité.
- Large potentiel d’application : Ce modèle peut être utilisé non seulement pour l’évaluation de la toxicité environnementale, mais aussi pour fournir un support technique à la conception sécuritaire des produits chimiques.
Autres informations utiles
Les chercheurs ont publié le code et les ensembles de données du modèle sur GitHub (https://github.com/zhaoqi106/atfpgt-multi), offrant ainsi une ressource précieuse pour les recherches futures. De plus, l’étude a été soutenue par le Ministère des Sciences et Technologies de Chine, la Fondation Nationale des Sciences Naturelles et la Fondation des Sciences Naturelles de la Province de Liaoning.
Grâce à cette étude, nous voyons non seulement le potentiel énorme des technologies d’apprentissage profond dans la prédiction de la toxicité aquatique, mais nous obtenons également de nouvelles idées et méthodes pour l’évaluation de la sécurité des produits chimiques à l’avenir.