Transformation des résidus pour l'édition d'images avec StyleGAN
GAN Inversion et Édition d’Images : Warping des Résidus pour l’Édition avec StyleGAN
Contexte et Problématique
Les réseaux antagonistes génératifs (Generative Adversarial Networks, GANs) ont réalisé des avancées notables dans la génération d’images, permettant la synthèse et l’édition d’images de haute qualité. Les modèles StyleGAN, grâce à leur organisation sémantique explicable des espaces latents, montrent une capacité d’édition qui dépasse les méthodes traditionnelles de traduction d’images. Cependant, l’édition d’images réelles nécessite leur projection dans l’espace latent du GAN (inversion GAN), afin d’atteindre une reconstruction fidèle et des éditions de qualité.
Les méthodes existantes souffrent d’une tension clé : - Espaces latents à faible débit binaire : ces espaces (comme l’espace $W^+$ de StyleGAN) offrent de bonnes capacités d’édition mais perdent des détails d’image en raison d’un goulot d’étranglement informationnel. - Espaces latents à haut débit binaire : ils capturent les détails de l’image mais peinent à s’adapter aux éditions complexes, notamment celles impliquant de grands changements comme la pose ou le sourire.
Pour résoudre ce dilemme, Ahmet Burak Yildirim et ses collègues ont introduit Warpres, un nouveau cadre d’inversion d’images qui intègre un module d’estimation de flux. Celui-ci déforme les caractéristiques latentes à haut débit pour s’adapter aux besoins d’édition. Cet article a été publié dans l’International Journal of Computer Vision (DOI : https://doi.org/10.1007/s11263-024-02301-6).
Approche et Cadre Technique
Architecture Générale
Warpres repose sur une idée centrale : prédire les flux entre les caractéristiques intermédiaires du GAN avant et après édition, et utiliser ces flux pour déformer les caractéristiques latentes à haut débit. Cela garantit une reconstruction fidèle et des éditions de qualité.
- Extraction de caractéristiques à haut débit : des caractéristiques latentes à 128×128 de résolution sont extraites à partir d’un encodeur pré-entraîné.
- Prédiction et déformation des flux : un réseau d’estimation des flux pré-entraîné guide la prédiction des flux, lesquels sont utilisés pour ajuster les caractéristiques latentes.
- Fusion et génération : les caractéristiques déformées sont combinées avec celles éditées avant d’être transmises au générateur StyleGAN.
Détails Techniques
Encodeur et caractéristiques : basé sur l’encodeur e4e (Tov et al., 2021), il extrait des caractéristiques $W^+$ à faible débit et des caractéristiques à haut débit (128×128).
Module de flux : emprunte à Truong et al. (2021) mais adapté aux caractéristiques de StyleGAN.
Objectifs d’entraînement :
- Pertes de reconstruction : L2, perceptive et identité pour assurer la fidélité.
- Perte adversaire : guidée par un discriminateur StyleGAN pour garantir le réalisme.
- Pertes de flux : guide l’estimation des flux avec des flux pseudo-vérités.
- Régularisation des caractéristiques : limite l’information redondante des caractéristiques à haut débit.
Datasets et paramètres : le modèle est entraîné sur les ensembles FFHQ, CelebA-HQ (visages) et Stanford Cars.
Résultats et Découvertes
Performance en Reconstruction et Édition
Warpres a démontré une amélioration significative dans les tâches de reconstruction et d’édition :
- Reconstruction : Par rapport à des modèles comme HyperStyle ou HFGI, Warpres réduit la FID à 5,53 sur CelebA-HQ, surpassant les modèles précédents en termes de fidélité.
- Édition : Pour des tâches complexes (comme les poses ou les sourires), Warpres maintient la cohérence de l’identité, avec un score ID amélioré à 0,81 contre 0,68 pour HyperStyle.
Importance des Caractéristiques à Haut Débit
Les expériences montrent que l’augmentation de la résolution des caractéristiques à haut débit (de 64×64 à 128×128) améliore à la fois la reconstruction et la qualité des éditions.
Efficacité
Avec un temps d’inférence moyen de 0,13 seconde par image, Warpres est adapté aux besoins d’édition en temps réel, tout en restant compétitif par rapport aux autres méthodes.
Flexibilité et Extensibilité
Warpres fonctionne avec divers encodeurs (PSP, e4e, StyleTransformer) et améliore significativement leurs résultats lorsqu’il est ajouté.
Comparaisons Qualitatives
Warpres corrige les artefacts et assure des éditions réalistes, même dans des cas complexes impliquant de grands déplacements (ex. : pose, sourire). Il conserve également les détails fins comme les accessoires, les arrière-plans, et les expressions.
Impact et Perspectives
Contribution Scientifique
Les innovations de Warpres incluent : 1. Équilibre entre fidélité et qualité : grâce à la déformation des flux et aux caractéristiques à haut débit. 2. Généralisation : application flexible à différentes techniques d’édition GAN (ex. : InterfaceGAN, StyleClip). 3. Efficacité : des mécanismes efficaces qui garantissent un temps d’exécution rapide.
Applications Pratiques
- Édition faciale personnalisée : pour ajuster des expressions ou des styles spécifiques.
- Design assisté par ordinateur : pour les véhicules, l’architecture ou la mode.
- Réalité virtuelle et animation : pour une génération de scènes de haute qualité en temps réel.
Limites et Recherches Futures
Warpres est actuellement limité à des représentations 2D. L’avenir pourrait voir l’intégration avec des GANs 3D (comme EG3D) pour mieux s’adapter aux environnements virtuels ou animés.
Conclusion
Warpres propose une solution innovante et performante pour l’inversion GAN, combinant reconstruction fidèle et éditions de qualité. En intégrant la prédiction de flux et la déformation des caractéristiques, il établit une nouvelle référence pour l’édition sémantique d’images réelles, avec des applications potentielles dans la recherche et l’industrie.