Exploitation des réseaux de convolution de graphes pour l'apprentissage semi-supervisé dans les données non graphiques multi-vues

Contexte

Dans le domaine de l’apprentissage automatique, l’apprentissage semi-supervisé (Semi-Supervised Learning, SSL) a attiré une attention particulière en raison de sa capacité à exploiter un petit nombre de données étiquetées et un grand nombre de données non étiquetées pour l’apprentissage. En particulier dans les scénarios où l’étiquetage des données est coûteux, les méthodes d’apprentissage semi-supervisé basées sur les graphes sont devenues un sujet de recherche majeur. Les réseaux de convolution sur graphes (Graph Convolutional Networks, GCNs) ont montré des performances exceptionnelles dans l’apprentissage semi-supervisé, en particulier pour les données structurées en graphes (comme les réseaux de citations et les réseaux sociaux). Cependant, l’application des GCNs aux données multi-vues non structurées en graphes (comme les collections d’images) reste un domaine peu exploré.

Les données multi-vues (Multi-view Data) font référence à des ensembles de données qui capturent des informations sur un même objet à partir de différentes perspectives ou modalités. Par exemple, les données télévisuelles incluent deux vues : vidéo et audio, tandis que dans la compréhension du langage naturel, un même objet sémantique peut être exprimé dans différentes langues. Dans la reconnaissance faciale, les images 2D et les modèles 3D représentent différentes modalités des données faciales. L’apprentissage multi-vues (Multi-view Learning) vise à exploiter ces informations complémentaires pour construire un modèle unifié, améliorant ainsi les performances de classification. Cependant, les méthodes existantes d’apprentissage multi-vues rencontrent encore des défis lorsqu’elles traitent des données non structurées en graphes, en particulier les images.

Pour résoudre ce problème, les chercheurs F. Dornaika, J. Bi et J. Charafeddine ont proposé un modèle de classification semi-supervisée basé sur les GCNs, spécialement conçu pour les données non structurées en graphes. Leur recherche vise à combler cette lacune et à fournir de nouvelles solutions pour l’apprentissage semi-supervisé des données multi-vues.

Source de l’article

L’article a été co-écrit par F. Dornaika (Université du Pays Basque et Fondation Ikerbasque pour la Science), J. Bi (Université du Pays Basque) et J. Charafeddine (Centre de Recherche De Vinci) et publié en 2025 dans la revue Cognitive Computation. Le titre de l’article est Leveraging Graph Convolutional Networks for Semi-Supervised Learning in Multi-view Non-graph Data, avec le DOI 10.1007/s12559-025-10428-y.

Processus de recherche

1. Objectifs et conception de la méthode

L’objectif principal de cette recherche est de développer deux modèles de classification semi-supervisée multi-vues basés sur les GCNs, appelés respectivement Semi-Supervised Classification with a Unified Graph (SCUG) et Semi-Supervised Classification with a Fused Graph (SC-Fused). Ces deux modèles partagent une architecture commune, utilisant le cadre des GCNs et intégrant une contrainte de lissage des étiquettes (Label Smoothing Constraint). Leur différence réside dans la manière de construire le graphe de similarité consensuel (Consensus Similarity Graph).

2. Classification semi-supervisée avec graphe unifié (SCUG)

L’idée centrale de SCUG est de reconstruire directement le graphe consensuel à partir des différentes vues en utilisant une fonction objective spécialisée. Les étapes spécifiques sont les suivantes :

  1. Prétraitement des données : Normalisation des caractéristiques des échantillons dans chaque vue pour s’assurer que les vecteurs colonnes de la matrice de données sont des vecteurs unitaires.
  2. Construction du graphe unifié : Utilisation de l’algorithme de construction de graphe cohérent multi-vues et de propagation des étiquettes (MVCGL) pour estimer le graphe unifié. Cet algorithme optimise une fonction objective globale, exploitant les données étiquetées et les informations de surveillance des étiquettes prédites pour générer un modèle semi-supervisé discriminant.
  3. Entraînement du réseau de convolution sur graphe : Le graphe unifié et la matrice de caractéristiques globales sont introduits dans l’architecture GCN, où l’apprentissage se fait par propagation inter-couches et lissage des étiquettes, produisant finalement des prédictions d’étiquettes douces pour tous les échantillons.

3. Classification semi-supervisée avec graphe fusionné (SC-Fused)

SC-Fused adopte une méthode de fusion adaptative pour construire le graphe unifié, avec les étapes suivantes :

  1. Construction des graphes individuels : Un graphe de similarité est construit pour chaque vue en optimisant une fonction objective, générant ainsi une matrice de graphe pour chaque vue.
  2. Construction du graphe fusionné : Les graphes individuels sont fusionnés de manière adaptative en un graphe consensuel unifié, en fonction des poids de lissage des données pour chaque vue.
  3. Entraînement du réseau de convolution sur graphe : Le graphe fusionné et la matrice de caractéristiques globales sont introduits dans l’architecture GCN, où l’apprentissage se fait par propagation inter-couches et lissage des étiquettes, produisant finalement des prédictions d’étiquettes douces pour tous les échantillons.

4. Conception expérimentale et jeux de données

Pour valider l’efficacité des modèles proposés, les chercheurs ont mené des expériences sur sept jeux de données d’images multi-vues, incluant ORL, Scene, Handwritten, ALOI, MSRC-v1, YouTube et MNIST. Ces jeux de données couvrent divers types d’images, tels que les visages, les scènes et les chiffres manuscrits.

5. Méthodes comparées et paramétrage

Les chercheurs ont comparé SCUG et SC-Fused à sept méthodes existantes, incluant deux méthodes de base (GCN-X* et GCN-Multi) et quatre méthodes d’apprentissage semi-supervisé multi-vues de pointe (MVCGL, AMSSL, DSRL et JCD). Les paramètres de tous les modèles ont été maintenus identiques pour garantir l’équité des expériences.

Résultats de la recherche

Les résultats expérimentaux montrent que SC-Fused a obtenu la plus haute précision de classification sur six jeux de données (ORL, Scene, Handwritten, ALOI, MSRC-v1 et YouTube), démontrant une supériorité significative. SCUG a également performé de manière remarquable sur quatre jeux de données (Scene, ALOI, MSRC-v1 et YouTube), se classant juste derrière SC-Fused. En revanche, les autres méthodes ont montré des performances variables selon les jeux de données, avec des résultats médiocres sur les jeux de données complexes.

1. Analyse de la sensibilité aux paramètres

Les chercheurs ont mené une analyse détaillée de la sensibilité aux paramètres de SC-Fused, révélant que les paramètres optimaux varient considérablement selon les jeux de données. Par exemple, le paramètre de lissage optimal λ était de 0,1 pour ALOI, mais de 1200 pour Handwritten. Cela indique que chaque jeu de données nécessite un ajustement des paramètres en fonction de ses caractéristiques pour atteindre la meilleure précision de classification.

2. Construction du graphe et efficacité de la classification

En visualisant les matrices de similarité, les chercheurs ont constaté que SC-Fused était capable de capturer efficacement la similarité intra-classe tout en réduisant la similarité inter-classe lors de la construction des matrices de graphes. Cette construction efficace a directement amélioré la précision de la classification semi-supervisée. Par exemple, sur les jeux de données Handwritten et ORL, les matrices de graphes construites par SC-Fused ont montré une agrégation intra-classe claire et une séparation inter-classe nette, correspondant à leur haute précision de classification.

3. Visualisation des embeddings

En utilisant la technique de visualisation t-SNE, les chercheurs ont montré la distribution des caractéristiques d’entrée et des représentations de sortie du modèle SC-Fused. Les résultats ont révélé que l’apprentissage semi-supervisé permettait de regrouper davantage les échantillons de la même classe tout en éloignant les échantillons de classes différentes, validant ainsi l’efficacité du modèle.

Conclusion de la recherche

Cette étude propose deux modèles de classification semi-supervisée multi-vues basés sur les GCNs, comblant ainsi une lacune dans l’application des GCNs aux données non structurées en graphes. Les résultats expérimentaux montrent que SC-Fused surpasse les autres méthodes sur plusieurs jeux de données, en particulier sur les jeux de données complexes. Les principales contributions de cette recherche incluent :

  1. La proposition de deux méthodes pour construire un graphe consensuel adapté aux données multi-vues et non structurées en graphes.
  2. L’utilisation des graphes générés pour entraîner un réseau de convolution sur graphe semi-supervisé, améliorant ainsi les performances de classification.
  3. La validation expérimentale de la supériorité des méthodes proposées sur plusieurs jeux de données.

Points forts de la recherche

  1. Innovation : Cette étude est la première à appliquer les GCNs aux données multi-vues non structurées en graphes, proposant un nouveau cadre de classification semi-supervisée.
  2. Efficacité : SC-Fused a obtenu la plus haute précision de classification sur plusieurs jeux de données, démontrant une supériorité significative.
  3. Valeur applicative : Cette recherche offre de nouvelles solutions pour l’apprentissage semi-supervisé des données multi-vues, avec des perspectives d’application larges, notamment dans la classification d’images, l’analyse vidéo et le traitement du langage naturel.

Perspectives futures

Les chercheurs indiquent qu’ils exploreront davantage la réduction de la complexité computationnelle des données multi-vues, en particulier pour les caractéristiques de haute dimension ou les données multi-vues. De plus, ils prévoient d’introduire une couche de perceptron multicouche (MLP) dans le cadre des GCNs pour réduire davantage la dimensionnalité des caractéristiques, améliorant ainsi l’efficacité et les performances du modèle.


Cette recherche offre de nouvelles idées et méthodes pour l’apprentissage semi-supervisé des données multi-vues, apportant une valeur théorique et applicative importante. En introduisant les réseaux de convolution sur graphes, les chercheurs ont réussi à relever les défis de l’apprentissage semi-supervisé pour les données non structurées en graphes, jetant ainsi les bases pour les recherches futures dans ce domaine.