Moonshot : Vers une génération et une édition de vidéos contrôlables avec des conditions multimodales sensibles au mouvement

 

MoonShot - Vers une génération et une édition vidéo contrôlables basées sur des conditions multimodales sensibles au mouvement Contexte de recherche et problématique Ces dernières années, les modèles de diffusion texte-vidéo (Video Diffusion Models, VDMs) ont connu des progrès significatifs, permettant de générer des vidéos de haute qualité et visu...

Deepfake-Adapter : Adaptateur à deux niveaux pour la détection de deepfake

Deepfake-Adapter - Un adaptateur double couche pour la détection de deepfakes Contexte de recherche et problématique Avec le développement rapide des modèles génératifs profonds (deep generative models), des images et vidéos faciales ultra-réalistes peuvent être facilement générées, capables même de tromper l’œil humain. Lorsque cette technologie e...

Synthèse d'images sous données limitées : Une étude et une taxonomie

Synthèse d’images sous données limitées : Une revue Contexte de recherche et problématique Ces dernières années, les modèles génératifs profonds (Deep Generative Models) ont réalisé des progrès sans précédent dans les tâches de création intelligente, en particulier dans la génération d’images et de vidéos, ainsi que dans la synthèse audio. Cependan...

Déroulement d'obturateur auto-supervisé avec événements

Méthode de déroulement du shutter auto-supervisée basée sur les caméras à événements Contexte de recherche et problématique Dans le domaine de la vision par ordinateur, la récupération de vidéos sans distorsion en obturation globale (Global Shutter, GS) à partir d’images avec obturation progressive (Rolling Shutter, RS) reste un problème extrêmemen...

Double espace vidéo piéton reconnaissance lourde

 

Recherche sur l’identification vidéo de personnes dans un espace dual Introduction au contexte La technologie d’identification de personnes (Person Re-Identification, ReID) vise à identifier des individus spécifiques à travers des images ou des séquences vidéo capturées par différentes caméras. Ces dernières années, avec le développement rapide de ...

TryOn-Adapter : Adaptation d'identité vestimentaire à grain fin efficace pour une expérience de virtual try-on haute fidélité

TryOn-Adapter : Adaptation d'identité vestimentaire à grain fin efficace pour une expérience de virtual try-on haute fidélité

TryOn-Adapter — Adaptation d’identité vestimentaire fine et efficace pour essayage virtuel haute fidélité Contexte de recherche et problématique La technologie d’essayage virtuel (Virtual Try-On) a suscité une attention croissante ces dernières années. Son objectif principal est d’ajuster les vêtements donnés sur une personne spécifique de manière ...

Apprentissage et régularisation de la représentation découplée par contraste pour la manipulation des expressions faciales préservant la parole

Apprentissage par Représentation Découplée Contrastive pour la Manipulation des Expressions Faciales en Préservant la Voix Introduction Ces dernières années, avec le développement rapide de la réalité virtuelle, de la production cinématographique et des technologies d’interaction homme-machine, la manipulation des expressions faciales est devenue u...

DiffuVolume : Modèle de diffusion pour l'appariement stéréo basé sur le volume

 

DiffuVolume - Une nouvelle méthode de stéréo matching basée sur le modèle de diffusion Contexte de recherche et problématique Le stéréo matching (Stereo Matching) est une tâche essentielle dans le domaine de la vision par ordinateur, avec des applications largement répandues dans les domaines de la conduite autonome et de la navigation robotique. S...

Apprentissage de la représentation faciale cohésive et consciente de la posture par apprentissage contrastif

Améliorer la perception des poses dans l’apprentissage autodidacte de représentations faciales Contexte de recherche et problématique Dans le domaine de la vision par ordinateur, l’apprentissage des représentations faciales (Facial Representation Learning) est une tâche importante. En analysant les images faciales, nous pouvons extraire des informa...

Un cadre de supervision mutuelle pour la segmentation et la génération d'expressions de référence

Un cadre de supervision mutuelle pour la segmentation et la génération d'expressions de référence

Un cadre de supervision mutuelle pour la segmentation et la génération d’expressions référentielles Contexte de recherche et problématique Ces dernières années, les technologies d’interaction vision-langage ont connu des progrès significatifs dans le domaine de l’intelligence artificielle. Parmi elles, la segmentation d’expressions référentielles (...