SLIDE : Un cadre unifié de génération de maillage et de texture avec un contrôle géométrique amélioré et une cohérence multi-vues
Rapport sur un article académique
Contexte académique
Avec l’augmentation de la demande en contenu 3D de haute qualité dans des industries telles que les jeux, l’architecture et les médias sociaux, le processus manuel de création d’actifs 3D est non seulement chronophage et techniquement complexe, mais aussi coûteux. En particulier dans l’industrie du jeu, la qualité esthétique des actifs tels que les personnages et les meubles influence directement l’immersion de l’environnement de jeu. Dans l’architecture, des modèles précis de bâtiments sont nécessaires pour la visualisation, la simulation et la planification. Les plateformes de médias sociaux utilisent de plus en plus le contenu 3D pour les expériences de réalité augmentée (AR) et de réalité virtuelle (VR). Cependant, le réalisme des modèles 3D repose souvent sur des représentations détaillées de maillages, incluant des sommets, des arêtes, des faces et des textures. Par conséquent, l’automatisation de la génération de maillages texturés de haute qualité et contrôlables est devenue une nécessité pressante.
Les modèles génératifs existants (comme GET3D et 3DGen) peuvent générer simultanément la géométrie et les textures, mais ils ont du mal à équilibrer la précision géométrique et les détails texturaux, ce qui entraîne des formes 3D avec des structures géométriques imprécises et des textures trop grossières ou irréalistes. Pour résoudre ce problème, cet article propose un nouveau cadre qui sépare la génération de la géométrie et des textures, en utilisant un modèle de diffusion de points latents épars (Sparse Latent Point Diffusion Model, SLIDE) pour un contrôle précis de la géométrie et en résolvant les problèmes d’incohérence des textures multi-vues grâce à des priors multi-vues.
Source de l’article
Cet article a été co-écrit par Jinyi Wang, Zhaoyang Lyu, Ben Fei et d’autres auteurs, issus d’institutions telles que l’Université de Shanghai Jiao Tong, l’Université chinoise de Hong Kong et l’Université technologique de Nanyang. L’article a été publié le 1er décembre 2024 dans la revue International Journal of Computer Vision.
Processus de recherche et résultats
1. Génération de la géométrie
1.1 Encodage et décodage des nuages de points
L’article utilise d’abord des nuages de points comme représentation intermédiaire, encodant un nuage de points dense en un ensemble de points latents épars avec des caractéristiques sémantiques, permettant ainsi un contrôle précis de la géométrie. Plus précisément, l’encodeur de nuage de points réduit progressivement un nuage de 2048 points à 16 points latents épars via quatre modules d’extraction de caractéristiques (Set Abstraction, SA), et génère une représentation finale des caractéristiques du nuage de points via un module de transfert de caractéristiques (Feature Transfer, FT). Le décodeur de nuage de points utilise ensuite trois modules de suréchantillonnage de points (Point Upsampling, PU) pour suréchantillonner progressivement les points latents épars en un nuage de points dense de 2048 points, tout en prédisant les normales du nuage de points.
1.2 Modèle de diffusion de points latents épars
Après l’entraînement de l’auto-encodeur de nuage de points, l’article entraîne deux modèles de diffusion probabiliste de débruitage (Denoising Diffusion Probabilistic Models, DDPM) dans l’espace latent. Le premier DDPM génère la distribution des positions des points latents épars, tandis que le second génère la distribution des caractéristiques basée sur les points latents épars. Grâce à ces deux DDPM, l’article réalise une génération inconditionnelle et contrôlable de la géométrie. La génération contrôlable ajuste les positions des points latents épars, génère les caractéristiques correspondantes, et finalement décode le nuage de points.
1.3 Résultats
Les résultats expérimentaux montrent que la méthode proposée excelle dans la génération de géométrie, produisant des maillages avec des surfaces lisses et des détails nets. En ajustant les points latents épars, la méthode permet de contrôler la forme globale et les détails locaux des maillages générés, sans nécessiter d’annotations de parties du jeu de données. De plus, l’article démontre des capacités d’interpolation et de combinaison de formes, prouvant la diversité et la flexibilité de la méthode.
2. Génération de textures
2.1 Génération de textures grossières
Après la génération de la géométrie, l’article utilise un modèle de diffusion multi-vues pour générer des textures grossières. Plus précisément, l’article génère d’abord des textures à partir de quatre points de vue (avant, gauche, arrière, droite), et combine un modèle de diffusion conditionné par la profondeur avec un modèle de diffusion multi-vues pour assurer la cohérence des textures sous différents angles de vue.
2.2 Optimisation des textures fines
Après la génération des textures grossières, l’article améliore la résolution et la couverture des textures via une phase de raffinement. Plus précisément, la carte de texture est divisée en “zones de raffinement” et “zones de génération”, et des techniques de réparation, de débruitage et de projection sont appliquées pour produire des textures à haute résolution et cohérentes en multi-vues.
2.3 Résultats
Les résultats expérimentaux montrent que la méthode proposée surpasse les méthodes existantes en termes de génération de textures, produisant des textures plus réalistes et cohérentes. Une étude utilisateur confirme également que les textures générées par cette méthode sont préférées en termes de qualité globale, d’alignement avec les invites et de cohérence des textures.
Conclusion et signification
Cet article propose un cadre unifié pour la génération de maillages et de textures, améliorant le contrôle géométrique grâce à un modèle de diffusion de points latents épars et résolvant les problèmes d’incohérence des textures multi-vues grâce à des priors multi-vues. Les résultats expérimentaux montrent que la méthode proposée surpasse les méthodes existantes en termes de qualité géométrique, de contrôle et de cohérence des textures, améliorant significativement la génération de contenu 3D complexe et texturé. Cette recherche offre de nouvelles perspectives et méthodes pour les domaines de l’infographie et de la création de contenu virtuel, avec une valeur scientifique et pratique importante.
Points forts de la recherche
- Séparation de la génération de la géométrie et des textures : Cet article sépare pour la première fois la génération de la géométrie et des textures, permettant un contrôle précis de la géométrie via un modèle de diffusion de points latents épars et résolvant les problèmes d’incohérence des textures grâce à des priors multi-vues.
- Modèle de diffusion de points latents épars : Le modèle de diffusion de points latents épars proposé réduit significativement la complexité de la génération géométrique et améliore le contrôle sur la structure du maillage.
- Génération de textures cohérentes en multi-vues : En combinant un modèle de diffusion multi-vues avec un modèle de diffusion conditionné par la profondeur, la méthode assure la cohérence des textures sous différents angles de vue, améliorant ainsi le réalisme et la cohérence des textures.
- Génération efficace : La méthode proposée est significativement plus efficace que les méthodes existantes, permettant de générer des géométries et des textures de haute qualité en un temps réduit.
Autres informations utiles
L’article démontre également des capacités d’interpolation et de combinaison de formes, prouvant la diversité et la flexibilité de la méthode. De plus, une étude utilisateur valide la qualité et la cohérence des textures générées, montrant que la méthode proposée surpasse les méthodes de référence en termes de qualité globale, d’alignement avec les invites et de cohérence des textures.