Mécanismes neuronaux de l'apprentissage relationnel et de la réassemblage rapide des connaissances dans les réseaux neuronaux plastiques

Mécanismes neuronaux et apprentissage relationnel : réassemblage rapide des connaissances dans les réseaux neuronaux Contexte Les humains et les animaux possèdent une capacité remarquable à apprendre les relations entre les éléments de leur expérience (comme les stimuli, les objets et les événements), permettant ainsi une généralisation structurée ...

Apprentissage avec des biais inductifs enrichis pour les modèles vision-langage

Learning with Enriched Inductive Biases for Vision-Language Models Contexte de recherche et problématique Ces dernières années, les modèles visio-langagiers (Vision-Language Models, VLMs) ont enregistré des progrès significatifs dans les domaines de la vision par ordinateur et du traitement du langage naturel. Ces modèles sont pré-entraînés sur de ...

Apprentissage des dépendances supportant la structure via un transformateur interactif de points clés pour l'estimation de pose des mammifères généraux

Progrès dans l’estimation de la pose des mammifères généraux Contexte de recherche et problématique Dans le domaine de la vision par ordinateur, l’estimation de la pose est une tâche fondamentale et importante, dont l’objectif est de localiser les positions des points clés dans les images d’objets cibles. Ces dernières années, l’estimation de la po...

Seaformer++ : Transformateur axial à compression améliorée pour la reconnaissance visuelle mobile

SEAFormer++ - Une architecture Transformer efficace conçue pour la reconnaissance visuelle mobile Contexte de recherche et problématique Ces dernières années, le domaine de la vision par ordinateur a connu un changement majeur, passant des réseaux neuronaux convolutionnels (CNN) aux méthodes basées sur les Transformers. Cependant, bien que les Visi...

Plus petit mais meilleur : Unifier la génération de mise en page avec des modèles de langage plus petits

Une nouvelle avancée dans la génération unifiée de mises en page : des grands modèles linguistiques plus petits mais plus puissants Contexte de recherche et problématique La génération de mise en page (Layout Generation) est une direction importante dans les domaines de la vision par ordinateur et de l’interaction homme-machine, visant à générer au...

Moonshot : Vers une génération et une édition de vidéos contrôlables avec des conditions multimodales sensibles au mouvement

 

MoonShot - Vers une génération et une édition vidéo contrôlables basées sur des conditions multimodales sensibles au mouvement Contexte de recherche et problématique Ces dernières années, les modèles de diffusion texte-vidéo (Video Diffusion Models, VDMs) ont connu des progrès significatifs, permettant de générer des vidéos de haute qualité et visu...

Deepfake-Adapter : Adaptateur à deux niveaux pour la détection de deepfake

Deepfake-Adapter - Un adaptateur double couche pour la détection de deepfakes Contexte de recherche et problématique Avec le développement rapide des modèles génératifs profonds (deep generative models), des images et vidéos faciales ultra-réalistes peuvent être facilement générées, capables même de tromper l’œil humain. Lorsque cette technologie e...

Synthèse d'images sous données limitées : Une étude et une taxonomie

Synthèse d’images sous données limitées : Une revue Contexte de recherche et problématique Ces dernières années, les modèles génératifs profonds (Deep Generative Models) ont réalisé des progrès sans précédent dans les tâches de création intelligente, en particulier dans la génération d’images et de vidéos, ainsi que dans la synthèse audio. Cependan...

Déroulement d'obturateur auto-supervisé avec événements

Méthode de déroulement du shutter auto-supervisée basée sur les caméras à événements Contexte de recherche et problématique Dans le domaine de la vision par ordinateur, la récupération de vidéos sans distorsion en obturation globale (Global Shutter, GS) à partir d’images avec obturation progressive (Rolling Shutter, RS) reste un problème extrêmemen...

Double espace vidéo piéton reconnaissance lourde

 

Recherche sur l’identification vidéo de personnes dans un espace dual Introduction au contexte La technologie d’identification de personnes (Person Re-Identification, ReID) vise à identifier des individus spécifiques à travers des images ou des séquences vidéo capturées par différentes caméras. Ces dernières années, avec le développement rapide de ...