Amélioration perceptuelle sous-marine heuristique avec apprentissage collaboratif sémantique

Contexte académique et problématique Les images sous-marines ont une valeur importante dans des domaines tels que l’exploration océanique, la robotique sous-marine et l’identification des espèces marines. Cependant, en raison de la réfraction et de l’absorption de la lumière par l’eau, les images sous-marines souffrent généralement de problèmes tel...

Évaluation de la qualité d'image aveugle : Exploration de la perceptibilité de la fidélité du contenu via l'apprentissage adversarial de qualité

Évaluation de la qualité d’image sans référence : Exploration de la fidélité du contenu via l’apprentissage adversarial de qualité Contexte académique L’évaluation de la qualité d’image (Image Quality Assessment, IQA) est un problème fondamental en vision par ordinateur, visant à évaluer la fidélité du contenu visuel d’une image. L’IQA a des applic...

RepsNet : Un modèle de segmentation d'instances de noyaux basé sur la régression des limites et la reparamétrisation structurelle

RepsNet : Un modèle de segmentation d'instances de noyaux basé sur la régression des limites et la reparamétrisation structurelle

Modèle de segmentation d’instances de noyaux basé sur la régression des limites et la reparamétrisation structurelle RepsNet Contexte académique Le diagnostic pathologique est la référence absolue pour le diagnostic des tumeurs, et la segmentation d’instances de noyaux est une étape clé dans l’analyse pathologique numérique et le diagnostic patholo...

CSFRNet : Intégration de la conscience de l'état des vêtements pour la ré-identification à long terme des personnes

Introduction La ré-identification de personnes à long terme (Long-Term Person Re-Identification, LT-ReID) est une tâche cruciale dans le domaine de la vision par ordinateur, visant à associer des individus à travers des enregistrements visuels capturés à différents moments et/ou lieux par des caméras non chevauchantes. Cependant, la nature dynamiqu...

Champ de distance signée régularisé par pseudo-plan pour la reconstruction neuronale de scènes intérieures

Champ de distance signée régularisé par des pseudo-plans pour la reconstruction neuronale de scènes intérieures Contexte académique La reconstruction tridimensionnelle (3D) de scènes intérieures est une tâche importante en vision par ordinateur, avec des applications prometteuses dans des domaines tels que l’infographie et la réalité virtuelle. Les...

AutoStory : Génération d'images narratives diversifiées avec un effort humain minimal

AutoStory : Génération d'images narratives diversifiées avec un effort humain minimal

Contexte académique et problématique La visualisation d’histoires (Story Visualization) est une tâche visant à générer une série d’images visuellement cohérentes à partir d’une histoire décrite par un texte. Cette tâche exige que les images générées soient de haute qualité, alignées avec la description textuelle, et que les identités des personnage...

Combattre le bruit des étiquettes avec un modèle de substitution général pour la sélection des échantillons

Contexte académique et problématique Avec le développement rapide des réseaux de neurones profonds (Deep Neural Networks, DNNs), les systèmes d’intelligence visuelle ont réalisé des progrès significatifs dans des tâches telles que la classification d’images, la détection d’objets et la compréhension vidéo. Cependant, ces avancées dépendent de la co...

Exploration des associations d'étiquettes cohérentes homogènes et hétérogènes pour la ré-identification non supervisée des personnes en lumière visible et infrarouge

Exploration des associations de labels homogènes et hétérogènes cohérentes pour la ré-identification non supervisée de personnes en visible-infrarouge Introduction La ré-identification de personnes en visible-infrarouge (Visible-Infrared Person Re-Identification, VI-ReID) est un domaine de recherche important en vision par ordinateur, visant à retr...

Aniclipart : Animation de Clipart avec des A Priori Texte-Vidéo

Contexte académique et problématique Le Clipart (image clipart) est une forme d’art graphique prédéfinie largement utilisée dans les documents, les présentations et les sites web pour améliorer rapidement l’attrait visuel. Cependant, les workflows traditionnels pour convertir des images clipart statiques en séquences animées sont laborieux et chron...

LaVie : Génération de vidéos de haute qualité avec des modèles de diffusion latente en cascade

LaVie : Génération de vidéos de haute qualité avec des modèles de diffusion latente en cascade

Génération de vidéos de haute qualité avec des modèles de diffusion latente en cascade : LaVie Contexte académique Ces dernières années, les modèles de diffusion (Diffusion Models, DMs) ont réalisé des avancées révolutionnaires dans le domaine de la génération d’images, en particulier pour la génération d’images à partir de texte (Text-to-Image, T2...