Apprentissage avec des biais inductifs enrichis pour les modèles vision-langage

Learning with Enriched Inductive Biases for Vision-Language Models Contexte de recherche et problématique Ces dernières années, les modèles visio-langagiers (Vision-Language Models, VLMs) ont enregistré des progrès significatifs dans les domaines de la vision par ordinateur et du traitement du langage naturel. Ces modèles sont pré-entraînés sur de ...