Apprentissage avec des biais inductifs enrichis pour les modèles vision-langage

Learning with Enriched Inductive Biases for Vision-Language Models

Contexte de recherche et problématique

Ces dernières années, les modèles visio-langagiers (Vision-Language Models, VLMs) ont enregistré des progrès significatifs dans les domaines de la vision par ordinateur et du traitement du langage naturel. Ces modèles sont pré-entraînés sur de vastes paires d’images-textes pour construire un espace de représentation multimodal unifié, ce qui leur permet de performer dans diverses tâches en aval. Cependant, dans les scénarios d’apprentissage à faible échantillonnage (few-shot learning), comment ajuster efficacement ces modèles pour des tâches spécifiques tout en maintenant une bonne capacité de généralisation reste un problème à résoudre.

Les méthodes existantes reposent généralement sur l’ingénierie des prompts (prompt engineering) ou des stratégies de fine-tuning avec efficacité paramétrique (Parameter-Efficient Fine-Tuning, PEFT) pour optimiser les modèles pré-entraînés. Toutefois, ces approches négligent souvent l’importance des biais inductifs (inductive biases), ce qui limite la capacité de généralisation des modèles dans des scènes complexes. Les biais inductifs font référence aux hypothèses intégrées dans les algorithmes pour guider les modèles vers des solutions spécifiques. Par exemple, le partage de poids et l’invariance à la translation dans les réseaux neuronaux convolutionnels (CNNs) sont des exemples typiques de biais inductifs qui aident les modèles à apprendre plus efficacement sur de petits ensembles de données.

Pour résoudre ces problèmes, cette étude propose un nouveau cadre — Learning with Enriched Inductive Biases (LWEIB) — visant à améliorer les performances des VLMs dans les tâches à faible échantillonnage en introduisant des biais inductifs au niveau du texte, du modèle et de l’optimisation.

Source de l’article et informations sur les auteurs

Cet article a été co-rédigé par Lingxiao Yang, Ru-Yuan Zhang, Qi Chen et Xiaohua Xie, issus respectivement de l’École de Systèmes Science et Ingénierie de l’Université Sun Yat-sen, de l’Institut de Santé Cérébrale de l’Université Jiao Tong de Shanghai, et de l’École d’Informatique et d’Ingénierie de l’Université Sun Yat-sen, entre autres institutions. L’article est publié dans la revue de premier plan International Journal of Computer Vision (IJCV) et est officiellement en ligne depuis janvier 2025.


Détails de la recherche et processus

a) Processus de recherche et conception méthodologique

Le cœur de cette recherche est de proposer un nouveau cadre — LWEIB — qui optimise les performances des VLMs en introduisant des biais inductifs à trois niveaux. Voici le processus détaillé :

1. Biais inductifs au niveau du texte

La recherche introduit d’abord des informations descriptives enrichies au niveau du texte. Plus précisément, les auteurs utilisent des textes personnalisés générés par un grand modèle linguistique (LLM) pour compléter les invites manuelles traditionnelles (handcrafted prompts). Par exemple, pour la catégorie “Shiba Inu”, en plus de l’invite traditionnelle “une photo d’un Shiba Inu”, des descriptions détaillées comme “petit”, “compact” ou “visage semblable à un renard” ont été ajoutées. Cette méthode vise à combler l’écart sémantique entre les modalités linguistiques et visuelles afin d’améliorer la capacité de généralisation du modèle.

2. Biais inductifs au niveau du modèle

Pour mieux capturer les informations structurelles dans le langage et la vision, les auteurs ont conçu deux nouveaux adaptateurs : - Adaptateur de phrases (Phrase Adapter, PA) : utilisé pour l’encodeur de texte, il modélise explicitement les relations entre mots adjacents via une couche de convolution profonde 1D. - Adaptateur spatial (Spatial Adapter, SA) : utilisé pour l’encodeur d’image, il capture les relations spatiales locales et les détails via une couche de convolution profonde 2D.

Ces deux adaptateurs sont insérés à différents endroits des blocs Transformer, par exemple après la couche d’auto-attention multi-têtes (MSA) et après la première couche entièrement connectée du réseau feed-forward (FFN).

3. Biais inductifs au niveau de l’optimisation

Dans le processus d’optimisation, les auteurs proposent une méthode de facteur d’échelle dynamique α, appelée méthode d’optimisation “lente-rapide” (Slow-Fast Optimization Method). Cette méthode ajuste aléatoirement la valeur de α, permettant au modèle de trouver un équilibre flexible entre sous-apprentissage et sur-apprentissage. La formule spécifique est la suivante : $$ dy(\alpha) = \begin{cases} s \cdot \alpha, & \text{prob} > 0.5 \ \alpha, & \text{sinon} \end{cases} $$ où s est un hyperparamètre contrôlant le degré de mise à l’échelle.

Paramètres expérimentaux

L’étude a été réalisée sur trois jeux de données de référence largement utilisés, y compris ImageNet, Caltech101 et CUB-200. Toutes les expériences ont été menées dans un cadre de 16-shot, c’est-à-dire que seuls 16 échantillons d’entraînement par catégorie ont été utilisés. Le modèle repose sur l’architecture CLIP (Contrastive Language–Image Pre-training) et ses performances ont été évaluées dans plusieurs tâches.


b) Résultats principaux et analyse des données

1. Capacité de généralisation des classes de base et nouvelles

Les résultats expérimentaux montrent que LWEIB surpasse les méthodes existantes tant pour les classes de base (base classes) que pour les nouvelles classes (novel classes). Par exemple, sur le jeu de données ImageNet, LWEIB atteint une précision de 78,21 % pour les nouvelles classes, surpassant la deuxième meilleure méthode de 1,35 %. De plus, LWEIB obtient une moyenne harmonique (Harmonic Mean, HM) de 81,21 % sur 11 jeux de données, surpassant nettement les autres méthodes.

2. Évaluation inter-jeux de données

Dans l’évaluation inter-jeux de données, LWEIB affiche également d’excellentes performances avec une précision moyenne de 68,61 %, soit près de 2 % de plus que la deuxième meilleure méthode. En particulier, sur des jeux de données présentant de grands écarts de distribution tels qu’Eurosat, DTD et Aircraft, les avantages de LWEIB sont particulièrement marqués.

3. Capacité de généralisation inter-domaines

Dans les tâches de généralisation inter-domaines, LWEIB affiche les meilleures performances sur 34 des jeux de données de domaines non vus. Cela indique que ce cadre présente une forte robustesse et peut efficacement faire face à des changements de domaine significatifs.

Analyse des résultats

À travers des expériences d’ablation, les auteurs ont validé davantage l’efficacité de chaque module. Par exemple, l’utilisation seule de l’adaptateur de phrases ou de l’adaptateur spatial donne des performances inférieures au cadre complet ; tandis que l’introduction du facteur d’échelle dynamique α améliore considérablement la capacité de généralisation pour les nouvelles classes. Ces résultats montrent que LWEIB réalise un ajustement plus efficace du modèle grâce à l’action synergique des biais inductifs à plusieurs niveaux.


c) Conclusions et valeurs de la recherche

La contribution principale de cette recherche réside dans la proposition d’un nouveau cadre — LWEIB — qui améliore considérablement les performances des VLMs dans les tâches à faible échantillonnage en introduisant des biais inductifs à trois niveaux : texte, modèle et optimisation. Plus précisément : - Valeur scientifique : Révéler l’importance des biais inductifs dans l’apprentissage à faible échantillonnage, offrant ainsi de nouvelles perspectives pour les recherches futures. - Valeur pratique : LWEIB affiche des performances exceptionnelles dans de nombreuses tâches pratiques et peut être largement appliqué à des domaines tels que la classification d’images et la détection d’objets.


d) Points forts de la recherche

  1. Conception de biais inductifs à plusieurs niveaux : Première introduction systématique de biais inductifs aux niveaux du texte, du modèle et de l’optimisation.
  2. Conception innovante des adaptateurs : Les adaptateurs de phrases et spatiaux ciblent respectivement les modalités linguistiques et visuelles, capturant des informations structurelles riches.
  3. Stratégie d’optimisation dynamique : La méthode d’optimisation lente-rapide équilibre efficacement le sous-apprentissage et le sur-apprentissage via des ajustements aléatoires du facteur d’échelle.

Conclusion et signification

Cette recherche ne propose pas seulement un cadre efficace pour l’apprentissage à faible échantillonnage, mais offre également une nouvelle perspective pour l’optimisation des modèles visio-langagiers. En introduisant des biais inductifs à plusieurs niveaux, LWEIB a obtenu des performances de pointe dans de multiples tâches de référence, démontrant ainsi sa valeur importante tant sur le plan théorique que pratique. À l’avenir, l’équipe de recherche prévoit d’explorer davantage des stratégies d’optimisation adaptative pour réduire l’impact de la randomisation tout en améliorant la stabilité et la capacité de généralisation du modèle.