Apprentissage des classificateurs de réseaux neuronaux par distribution des plus proches voisins sur une hypersphère adaptative
Classificateurs de réseaux neuronaux à hypersphère adaptative : Revue de l’étude ASNN
Introduction et Contexte de l’Étude
Ces dernières années, avec le développement de l’intelligence artificielle et de l’apprentissage profond, les réseaux neuronaux (Neural Networks, NNs) sont largement utilisés dans les tâches de classification. Essentiellement, ces tâches consistent à établir des frontières de décision à l’aide de réseaux neuronaux pour assigner des échantillons à leurs classes respectives. Cependant, parmi les méthodes de classification classiques des réseaux neuronaux, la faible extensibilité de l’espace d’encodage (Embedding Space) et l’inefficacité des stratégies d’appariement des paires positives et négatives (Positive/Negative Pairing) demeurent des défis majeurs limitant l’amélioration des performances. Plus précisément, les méthodes actuelles basées sur des contraintes par paires (Pair-wise Constraint-Based, PWCB), qui s’appuient principalement sur des fonctions de perte (telles que Triplet Loss, Contrastive Loss) et des espaces d’encodage fixes, présentent les difficultés suivantes :
- Limitation d’espace d’encodage fixe : L’espace d’encodage limité à des échelles fixes (comme l’espace euclidien ou hypersphérique unitaire) ne peut pas répondre aux besoins de distributions variées, entravant ainsi l’optimisation et rendant les classes difficiles à distinguer.
- Stratégie d’appariement inefficace : Dans des ensembles de données volumineux, sélectionner des paires positives/négatives appropriées est extrêmement difficile. Des choix inadéquats peuvent entraîner une convergence prématurée ou des optima locaux, compromettant l’apprentissage des caractéristiques discriminantes.
Pour faire face à ces défis, une équipe de recherche de l’Université de Jinan et du laboratoire Quan Cheng a proposé une méthode innovante nommée « Adaptive Hypersphere Nearest Neighbor » (ASNN). Les principaux auteurs, Xiaojing Zhang, Shuangrong Liu, Lin Wang et autres, ont publié cette étude dans IEEE Transactions on Artificial Intelligence, volume 6, numéro 1, en 2025. Cette recherche introduit un espace d’encodage hypersphérique à échelle adaptative (Scale-Adaptive Hypersphere Embedding Space) et une fonction de perte probabiliste basée sur les voisins (Neighborhood-Based Probability Loss, NPL) pour surmonter les limitations actuelles, améliorant ainsi de manière significative la capacité de généralisation des classificateurs de réseaux neuronaux.
Méthodologie et Processus de Recherche
Aperçu du Processus de Recherche
Le processus général de l’étude ASNN inclut les étapes suivantes : 1. Concevoir un espace hypersphérique à échelle adaptative pour éliminer les limitations d’extensibilité de l’espace d’encodage. 2. Développer une stratégie d’appariement basée sur les voisins pour guider une sélection dynamique des paires d’échantillons. 3. Construire une fonction de perte probabiliste basée sur les voisins (NPL) pour optimiser la capacité discriminante des réseaux neuronaux. 4. Effectuer une validation expérimentale sur plusieurs ensembles de données, y compris 29 ensembles de données UCI et 3 ensembles de reconnaissance d’images.
Détails des Étapes de Recherche
1. Espace Hypersphérique à Échelle Adaptative
Les chercheurs proposent un nouveau cadre d’encodage où un facteur d’échelle apprenable (Learnable Scale Factor, $\eta$) ajuste dynamiquement les limites de l’espace d’encodage :
$$ f^*(x) = \eta \cdot \frac{\langle w, \pi(x; \theta) \rangle}{||w||_2 \cdot ||\pi(x; \theta)||_2} $$
Ici, $f^*(x)$ désigne le point encodé de l’échantillon $x$, $\langle w, \pi(x; \theta) \rangle$ la sortie vectorielle normalisée de la couche pleinement connectée, et $\eta$ est optimisé via la descente de gradient pour adapter la taille de l’espace à la distribution des échantillons. Cette conception offre la flexibilité nécessaire pour auto-ajuster la taille de l’espace selon les données, maximisant ainsi la cohésion intraclasse (Intraclass Compactness) tout en assurant une séparation interclasse (Interclass Separability).
2. Stratégie d’Appariement Basée sur les Voisins
Pour améliorer l’efficacité dans la sélection des paires, une stratégie d’appariement basée sur les voisins les plus proches (Nearest Neighbors) est introduite :
- À chaque itération, une matrice de distances est calculée dans un mini-lot (Mini-Batch) pour identifier les ensembles de voisins positifs/négatifs pour chaque point d’ancrage (Anchor Point).
- Cette stratégie ajuste dynamiquement la proportion des paires positives/négatives en fonction de la distribution locale des échantillons, éliminant le besoin d’un nombre fixe.
3. Fonction de Perte Probabiliste Basée sur les Voisins (NPL)
Pour guider l’optimisation du réseau neuronal, deux variantes de la fonction de perte NPL ont été conçues : le Partial-NPL et le Global-NPL. Prenons comme exemple le Partial-NPL. Sa fonction de perte est définie comme suit :
$$ \mathcal{L} = - \frac{1}{m} \sum{i=1}^m [ \lambda \sum{j \in P} \log \hat{p}{ij} + (1-\lambda) \sum{k \in N} \log (1 - \hat{p}_{ik})] $$
Ici, $\hat{p}{ij}$ et $\hat{p}{ik}$ désignent respectivement les probabilités entre un ancrage et ses voisins positifs/négatifs :
$$ \hat{p}_{ij} = \frac{\exp{(-d(x_a^i, xp^j)/2)}}{\sum{j \in |P|} \exp{(-d(x_a^i, xp^j)/2)} + \sum{k \in |N|} \exp{(-d(x_a^i, x_n^k)/2)}} $$
En prenant en compte les relations de proximité entre points, la NPL vise à maximiser la proximité entre échantillons d’une même classe tout en éloignant ceux de différentes classes, renforçant ainsi les capacités discriminantes de l’encodage.
Sets de Données et Méthodes Expérimentales
La recherche a utilisé 29 ensembles de données du référentiel UCI (ex. Iris, Wine, Car Evaluation) et 3 ensembles de données d’images (MNIST, CIFAR-10, CIFAR-100). Les chercheurs ont comparé les performances d’ASNN avec d’autres méthodes (comme Triplet Loss, Contrastive Loss, Softmax + Cross-Entropy) en évaluant des métriques telles que l’exactitude (Accuracy, ACC) et le score F1 moyen (AFS).
Résultats et Analyse
Les résultats montrent qu’ASNN surpasse la plupart des méthodes sur de nombreux ensembles de données. Dans les ensembles du référentiel UCI, la variante G-NPL d’ASNN a obtenu la meilleure précision dans 23 des 29 ensembles analysés. Dans les ensembles d’images, l’erreur de test d’ASNN était significativement inférieure (26,32% sur CIFAR-100, contre 42,20% pour Triplet Loss).
ASNN permet non seulement d’adapter dynamiquement la taille de l’espace d’encodage, mais également de sélectionner intelligemment les paires d’échantillons en fonction des données locales, ce qui améliore considérablement l’optimisation et les performances. De plus, ASNN a démontré une efficacité remarquable dans les ensembles de données déséquilibrés (comme Covertype et Poker Hand), illustrant son avantage dans ces contextes.
Conclusion et Signification
En introduisant un espace hypersphérique à échelle adaptative et une fonction de perte basée sur les voisins, ASNN propose un cadre novateur pour l’optimisation des réseaux neuronaux. Cette étude, à forte valeur innovante, fournit une référence clé pour le développement futur des méthodes d’apprentissage profond. Les résultats d’ASNN sur divers ensembles montrent un large potentiel d’application dans les tâches de classification et d’autres scénarios.
En surmontant les défis liés à l’extensibilité de l’espace d’encodage et à l’inefficacité des appariements, ASNN ouvre de nouvelles perspectives dans la recherche sur les réseaux neuronaux avec des implications théoriques et pratiques significatives.