Apprentissage de représentation de graphe à double vue avec transformateur de graphe pour la détection d'anomalies au niveau du graphe
Recherche sur la détection d’anomalies au niveau des graphes basée sur l’apprentissage de représentations de graphes à double vue
Contexte académique
Dans le monde actuel, axé sur les données, les graphes (Graph) sont une structure de données puissante largement utilisée dans des domaines tels que l’analyse des réseaux sociaux, la détection de fraudes financières et la bioinformatique. Les graphes permettent de représenter efficacement des données relationnelles complexes, telles que les relations entre utilisateurs dans les réseaux sociaux, les flux de fonds dans les transactions financières, ou les relations entre atomes et liaisons chimiques dans les molécules. Cependant, avec l’utilisation généralisée des graphes, la détection de graphes anormaux (Graph-Level Anomaly Detection, GLAD) parmi un grand ensemble de données de graphes est devenue un problème de recherche important.
Les méthodes existantes de GLAD reposent généralement sur les réseaux de neurones de graphes (Graph Neural Networks, GNNs) pour extraire des représentations au niveau des graphes et effectuer la détection d’anomalies. Cependant, les GNNs ont une limitation : leur champ réceptif (receptive field) est limité, ce qui peut empêcher la capture d’informations anormales potentielles dans les graphes. De plus, les méthodes existantes négligent souvent les relations d’interaction entre les graphes, ce qui limite l’exploration des modèles d’anomalies entre les graphes. Pour résoudre ces problèmes, cet article propose un nouveau réseau d’apprentissage de représentations de graphes à double vue (Dual-View Graph-of-Graph Representation Learning Network), combiné à la technologie des transformateurs de graphes (Graph Transformer), visant à explorer de manière exhaustive les informations anormales dans les données de graphes à la fois à l’intérieur (intra-graphe) et entre les graphes (inter-graphes).
Source de l’article
Cet article est co-écrit par Wangyu Jin, Huifang Ma et Yingyue Zhang de l’École d’ingénierie informatique et des sciences de l’Université normale du nord-ouest de la Chine, Zhixin Li du Laboratoire clé de la technologie blockchain et de l’intelligence éducative du ministère de l’Éducation de l’Université normale du Guangxi, et Liang Chang de l’École des sciences informatiques et de la sécurité de l’information de l’Université électronique de Guilin. L’article a été publié en 2025 dans la revue Neural Networks, sous le titre “Dual-View Graph-of-Graph Representation Learning with Graph Transformer for Graph-Level Anomaly Detection”.
Processus de recherche
1. Intégration des graphes améliorée par les transformateurs de graphes
Pour renforcer la capacité d’exploration des informations intra-graphes, cet article propose une méthode d’intégration des graphes basée sur les transformateurs de graphes. Cette méthode combine les avantages des GNNs et des transformateurs de graphes en introduisant un encodage structurel (structural encoding) pour étendre le champ réceptif des GNNs. Les étapes spécifiques sont les suivantes :
- Intégration des GNNs : Le réseau d’isomorphisme de graphes (Graph Isomorphism Network, GIN) est utilisé comme encodeur des GNNs pour générer des intégrations initiales des nœuds. Le GIN utilise un perceptron multicouche (MLP) et un mécanisme d’agrégation des voisins pour extraire les caractéristiques des nœuds.
- Intégration des transformateurs : Sur la base des transformateurs traditionnels, un encodage structurel basé sur des marches aléatoires est introduit pour calculer les scores d’attention entre les nœuds. Grâce à un mécanisme d’attention globale, des intégrations de transformateurs sont générées.
- Fusion des intégrations de graphes : Les intégrations des GNNs et des transformateurs sont concaténées, et une représentation au niveau des graphes est générée par un pooling global moyen (global average pooling).
2. Apprentissage de représentations de graphes à double vue
Pour capturer explicitement les dépendances entre les graphes, cet article conçoit un module d’apprentissage de représentations de graphes à double vue. Ce module construit des représentations de graphes de graphes (Graph-of-Graph, GoG) à partir de deux perspectives : structurelle et attributive. Les étapes spécifiques sont les suivantes :
- Construction des graphes de graphes : Basée sur la similarité topologique et la similarité attributive, une graphe de graphes basée sur la topologie (Topology-based GoG) et une graphe de graphes basée sur les attributs (Feature-based GoG) sont construites. La similarité topologique est calculée à l’aide d’une fonction de noyau de chemin le plus court (shortest path kernel), tandis que la similarité attributive est calculée à l’aide de la similarité cosinus (cosine similarity).
- Propagation des graphes de graphes : Une propagation de messages est effectuée sur la structure des graphes de graphes construite, en utilisant le GIN comme encodeur pour générer des représentations au niveau des graphes. En minimisant l’erreur d’approximation entre les deux vues, la cohérence des représentations des graphes est assurée.
3. Module de notation des anomalies
Pour quantifier le degré d’anomalie de chaque graphe, cet article conçoit un mécanisme de notation des anomalies basé sur l’erreur de reconstruction. Les étapes spécifiques sont les suivantes :
- Erreur de reconstruction d’un seul graphe : À l’aide d’un décodeur structurel et d’un décodeur attributif, les informations structurelles et attributives du graphe sont reconstruites, et l’erreur de reconstruction d’un seul graphe est calculée.
- Erreur de reconstruction des graphes de graphes : Une reconstruction est effectuée sur les graphes de graphes basés sur la topologie et les attributs, et l’erreur de reconstruction des graphes de graphes est calculée.
- Score d’anomalie global : En combinant l’erreur de reconstruction d’un seul graphe et l’erreur de reconstruction des graphes de graphes, un score d’anomalie global est généré pour la détection finale des anomalies.
Résultats principaux
Des expériences approfondies ont été menées sur plusieurs ensembles de données réels pour valider l’efficacité de la méthode proposée. Les résultats montrent que la méthode proposée surpasse les méthodes existantes de GLAD en termes d’indice AUC (Area Under Curve) sur la plupart des ensembles de données. Les résultats spécifiques sont les suivants :
- Efficacité de l’intégration améliorée par les transformateurs de graphes : L’introduction des transformateurs de graphes étend considérablement le champ réceptif des GNNs, améliorant la capacité à capturer les informations anormales intra-graphes.
- Efficacité de l’apprentissage de représentations de graphes à double vue : En modélisant explicitement les relations inter-graphes, les modèles d’anomalies entre les graphes sont capturés efficacement, améliorant la précision de la détection des anomalies.
- Efficacité du mécanisme de notation des anomalies : Le mécanisme de notation des anomalies basé sur l’erreur de reconstruction permet une évaluation plus complète du degré d’anomalie des graphes, améliorant la robustesse de la détection.
Conclusion et signification
Cet article propose une méthode de détection d’anomalies au niveau des graphes basée sur l’apprentissage de représentations de graphes à double vue, combinée à la technologie des transformateurs de graphes, pour explorer de manière exhaustive les informations anormales dans les données de graphes à la fois à l’intérieur et entre les graphes. Cette méthode étend non seulement le champ réceptif des GNNs, mais modélise également explicitement les relations inter-graphes, générant des représentations de haute qualité au niveau des graphes, améliorant ainsi les performances de détection des anomalies. Cette recherche offre une nouvelle perspective pour la détection d’anomalies au niveau des graphes, avec une valeur scientifique et une signification pratique importantes.
Points forts de la recherche
- Introduction des transformateurs de graphes : En combinant les transformateurs de graphes et les GNNs, le champ réceptif des GNNs est considérablement étendu, améliorant la capacité à capturer les informations anormales intra-graphes.
- Apprentissage de représentations de graphes à double vue : En construisant des représentations de graphes de graphes à partir de deux perspectives, structurelle et attributive, les relations inter-graphes sont modélisées explicitement, capturant les modèles d’anomalies entre les graphes.
- Mécanisme de notation des anomalies basé sur l’erreur de reconstruction : Grâce à la reconstruction d’un seul graphe et des graphes de graphes, un score d’anomalie global est généré, fournissant une évaluation plus complète des anomalies.
Autres informations utiles
Les résultats expérimentaux montrent que la méthode proposée fonctionne bien sur plusieurs ensembles de données réels, en particulier sur les ensembles de données de bioinformatique et de réseaux sociaux, où la précision de la détection des anomalies est significativement améliorée. De plus, cet article analyse en détail l’impact de différents hyperparamètres (tels que le nombre de voisins, le coefficient de contrôle et le seuil de détection) sur les performances du modèle, fournissant des conseils pour le choix des paramètres dans les applications pratiques.