Moduler les champs récepteurs effectifs pour les noyaux convolutionnels

GMConv: Réglage de l’Effective Receptive Field des réseaux neuronaux convolutifs

Avant-propos

Les réseaux neuronaux convolutifs (Convolutional Neural Networks, CNNs) ont obtenu un succès remarquable dans les tâches de vision par ordinateur grâce à l’utilisation de noyaux de convolution, notamment dans la classification d’images, la détection d’objets, etc. Cependant, récemment, l’émergence des Vision Transformers (ViTs) a attiré de plus en plus d’attention en raison de leurs excellentes performances dans les tâches de reconnaissance visuelle, surpassant parfois les CNNs. Malgré cela, les efforts pour améliorer les CNNs n’ont jamais cessé. De nombreux travaux de recherche visent à concevoir de nouvelles architectures CNN, notamment les CNNs à large noyau qui montrent des performances comparables aux ViTs les plus avancés en termes de précision.

L’objectif principal de cette étude est l’Effective Receptive Field (ERF) dans CNNs. L’ERF représente la contribution d’un pixel d’entrée spécifique à un pixel de sortie. Des recherches ont montré que l’ERF suit généralement une distribution gaussienne. Sur cette base, les auteurs proposent le Gaussian Mask Convolutional Kernel (GMConv) pour ajuster le champ réceptif des noyaux de convolution tout en conservant la structure standard des noyaux de convolution, en générant un masque symétrique concentrique au moyen d’une fonction gaussienne.

Sources de la littérature

Cet article a été rédigé par Chen Qi, Li Chao, Ning Jia, Stephen Lin et He Kun (auteur correspondant). Les auteurs appartiennent respectivement à l’Université des Sciences et Technologies de Huazhong et au Microsoft Research Asia. L’article a été publié dans IEEE Transactions on Neural Networks and Learning Systems.

Contexte de la recherche

Bien que les réseaux neuronaux convolutifs existants (CNNs) aient démontré d’excellentes performances dans les tâches de vision par ordinateur, le noyau de convolution carré standard présente certaines limitations en termes de conception du champ réceptif (Receptive Field, RF). Des études existantes montrent que la distribution de l’ERF est souvent gaussienne plutôt qu’uniformément carrée. Dans ce contexte, l’accent est mis sur comment ajuster plus efficacement l’ERF pour améliorer les performances des CNNs, ce qui motive les auteurs à proposer le GMConv pour ajuster le champ réceptif des noyaux de convolution au moyen de masques gaussiens, améliorant les performances de classification des images et de détection d’objets.

Méthodes de recherche

Processus de recherche

  1. Proposition de GMConv : GMConv se compose principalement de versions statique (S-GMConv) et dynamique (D-GMConv). S-GMConv utilise un paramètre supplémentaire (σ) pour générer un masque concentrique, tandis que D-GMConv nécessite plus de paramètres pour contrôler la distribution du masque et dispose d’un module Sigma dynamique capable de prédire dynamiquement le paramètre sigma spécifique en fonction de l’entrée.

  2. Implémentation de GMConv : GMConv génère un masque basé sur la fonction gaussienne et l’applique au noyau de convolution standard pour ajuster le champ réceptif du noyau de convolution. Le processus de génération de masque via la fonction de distribution gaussienne évite au maximum la génération de valeurs extrêmes tout en maintenant l’efficacité du RF.

  3. Application de GMConv dans les CNNs : GMConv peut être intégré de manière transparente dans les architectures CNN existantes. En remplaçant le noyau de convolution standard par le noyau de convolution GMConv, les performances des modèles sur plusieurs ensembles de données de référence sont considérablement améliorées.

Conception des expériences

Les expériences ont été validées sur plusieurs ensembles de données standard, y compris CIFAR-10 et CIFAR-100 pour la classification d’images, ImageNet pour la classification d’images à grande échelle et COCO 2017 pour la détection d’objets. Basé sur ces ensembles de données de référence, les auteurs ont comparé de manière exhaustive les performances de GMConv dans diverses architectures de réseau et ont réalisé des études d’ablation pour analyser les différents aspects de GMConv.

Résultats principaux

  1. Résultats sur les ensembles de données CIFAR : Les tests réalisés sur ResNet-20, ResNet-56 et ResNet-18 montrent que GMConv améliore considérablement la précision du modèle après plusieurs expérimentations. En particulier, dans les modèles standard et GMConv ayant des quantités de paramètres et une complexité de calcul similaires, la précision est considérablement améliorée.

  2. Résultats sur ImageNet : Les expériences montrent que les modèles utilisant GMConv affichent une meilleure précision Top-1, en particulier pour les réseaux à large noyau comme AlexNet, avec une augmentation de la précision Top-1 de 0,98%.

  3. Résultats de la détection d’objets COCO : Sur les architectures Faster R-CNN et Cascade R-CNN, GMConv améliore considérablement les performances de détection d’objets, en particulier pour la détection de petits objets.

Étude d’ablation

  • Efficacité de S-GMConv : La version statique de GMConv (S-GMConv) montre de bonnes performances dans la plupart des modèles de référence. Toutefois, certains cas particuliers comme MobileNetV2, qui utilise des noyaux de petite taille, n’ont pas montré d’amélioration significative des performances.

  • Impact des valeurs initiales de σ : La comparaison entre différentes valeurs initiales de σ montre qu’un champ réceptif initial approprié (par exemple σ = 5) peut augmenter de manière stable les performances du modèle, tandis qu’une valeur de σ trop grande pourrait réduire les performances.

  • Conception de D-GMConv : La prédiction des paramètres de génération de masque σ1 et du ratio σ au moyen d’un module Sigma dynamique peut considérablement améliorer les performances du modèle.

Analyse de visualisation

  • Visualisation des masques de champ réceptif : Les résultats de la visualisation montrent que GMConv influence principalement les champs réceptifs des couches superficielles des CNNs. Comparé aux convolutions standard, GMConv est plus efficace pour les petits champs réceptifs dans les réseaux superficiels et pour les grands champs réceptifs dans les réseaux profonds, ce qui favorise l’amélioration des performances du modèle.

  • Visualisation de l’Effective Receptive Field : GMConv présente un ERF plus compact dans les tâches de détection d’objets, en particulier pour la détection de petits objets, ce qui se traduit par une meilleure précision. En combinaison avec la déformation des convolutions, GMConv permet d’atténuer les problèmes de dispersion de l’ERF, offrant un ERF plus précis et dense.

Conclusion

Les auteurs proposent GMConv qui ajuste le champ réceptif des noyaux de convolution grâce à des masques gaussiens, améliorant considérablement les performances des réseaux neuronaux dans les tâches de classification d’images et de détection d’objets. Les versions statique et dynamique de GMConv sont conçues respectivement pour répondre aux différents niveaux de réseau de convolution, afin de réaliser un équilibre entre performance et complexité. Les résultats expérimentaux montrent que GMConv peut améliorer de manière significative les performances des modèles basés sur les architectures CNN existantes, en particulier dans les cas où les champs réceptifs des couches superficielles sont de petite taille. Les futures conceptions de réseaux neuronaux peuvent tirer parti de cette découverte pour créer des architectures de réseau plus efficaces.