Champ de distance signée régularisé par pseudo-plan pour la reconstruction neuronale de scènes intérieures
Champ de distance signée régularisé par des pseudo-plans pour la reconstruction neuronale de scènes intérieures
Contexte académique
La reconstruction tridimensionnelle (3D) de scènes intérieures est une tâche importante en vision par ordinateur, avec des applications prometteuses dans des domaines tels que l’infographie et la réalité virtuelle. Les méthodes traditionnelles de reconstruction 3D reposent souvent sur des données de vérité terrain 3D coûteuses, tandis que les méthodes récentes basées sur les champs de radiance neuronaux (NeRF) ont démontré une capacité impressionnante à reconstruire des surfaces 3D à partir de plusieurs images uniquement. Cependant, comme NeRF repose principalement sur le rendu volumétrique des couleurs pour l’optimisation, ses performances dans les régions à faible texture (comme les sols, les murs, etc.) sont généralement médiocres. Ces régions à faible texture sont omniprésentes dans les scènes intérieures et correspondent souvent à des structures planes. Par conséquent, améliorer la qualité de reconstruction dans ces régions sans introduire de signaux de supervision supplémentaires ou faire des hypothèses supplémentaires sur la disposition de la pièce est un défi majeur.
Cet article propose une méthode de reconstruction de scènes intérieures basée sur un champ de distance signée régularisé par des pseudo-plans (PPlaneSDF). La méthode considère les pixels adjacents de couleurs similaires comme appartenant au même pseudo-plan et estime dynamiquement les paramètres du plan pendant l’entraînement, régularisant ainsi le champ de distance signée des points sur ces plans. De plus, une stratégie d’échantillonnage de rayons guidée par des points clés est proposée pour améliorer l’efficacité de l’entraînement et les résultats de reconstruction.
Source de l’article
Cet article est co-écrit par Jing Li, Jinpeng Yu, Ruoyu Wang et Shenghua Gao, affiliés respectivement à ShanghaiTech University, Xiaohongshu Technology Incorporated Company et The University of Hong Kong. L’article a été publié en 2024 dans la revue International Journal of Computer Vision.
Processus de recherche et résultats
1. Processus de recherche
1.1 Génération de pseudo-plans
L’article commence par segmenter les pixels adjacents de couleurs similaires en pseudo-plans à l’aide de la segmentation par superpixels. Ces pseudo-plans incluent non seulement de grandes surfaces comme les murs et les sols, mais aussi de petites surfaces planes sur des objets (comme les surfaces des chaises et des pianos). Cela génère des segments de plans non supervisés.
1.2 Estimation des paramètres des pseudo-plans
Pour estimer dynamiquement les paramètres des plans pendant l’entraînement, une stratégie en deux étapes est proposée :
- Étape 1 : Estimation approximative des paramètres du plan
Pendant le rendu, un petit nombre de points est échantillonné pour chaque segment de plan, et leur profondeur est obtenue via le rendu volumétrique. Les coordonnées 3D de ces points sont ensuite ajustées par une méthode des moindres carrés pour obtenir les paramètres approximatifs du plan. En raison du nombre limité de points échantillonnés, les paramètres estimés sont bruyants et imprécis.
- Étape 2 : Estimation corrigée des paramètres du plan
Sur le plan approximatif, un nouvel ensemble de points est échantillonné, et leurs distances signées et directions normales sont obtenues en interrogeant un réseau de perceptrons multicouches (MLP). En supposant que ces points sont suffisamment proches de la surface réelle, les paramètres corrigés du plan sont estimés en ajustant ces points.
1.3 Régularisation par pseudo-plans
Une fois les paramètres corrigés du plan obtenus, les distances signées des points échantillonnés sont régularisées pour correspondre à la distance au plan. Cela améliore significativement la reconstruction des régions planes.
1.4 Fusion des segments de plans et pondération des points
Comme les segments de plans non supervisés sont souvent bruyants et imprécis, une stratégie de pondération des points basée sur la fusion des segments de plans provenant de différentes vues est proposée. Cela réduit l’impact du bruit sur l’estimation des plans et la régularisation.
1.5 Stratégie d’échantillonnage de rayons guidée par points clés
Pour éviter l’échantillonnage redondant dans les régions planes, une stratégie d’échantillonnage de rayons guidée par des points clés est proposée. En augmentant la probabilité d’échantillonnage autour des points clés détectés dans les images, le réseau se concentre davantage sur les régions texturées, améliorant ainsi les détails de reconstruction.
2. Résultats de la recherche
Des expériences approfondies ont été menées sur les ensembles de données ScanNet et 7-Scenes, validant l’efficacité et la généralisation de la méthode proposée. Les résultats montrent que PPlaneSDF obtient des performances compétitives dans les scènes de type Manhattan et généralise bien aux scènes non-Manhattan.
Scènes de type Manhattan : Dans les scènes de type Manhattan, PPlaneSDF surpasse les méthodes existantes dans la reconstruction de grandes surfaces planes comme les murs et les sols, tout en capturant mieux les détails des petites surfaces planes (comme les meubles).
Scènes non-Manhattan : Dans les scènes non-Manhattan, PPlaneSDF montre également des performances impressionnantes, capable de gérer des scènes complexes avec plusieurs directions dominantes, là où les méthodes existantes (comme Manhattan-SDF) échouent en raison de leur dépendance à l’hypothèse du monde Manhattan.
3. Conclusion et signification
La méthode PPlaneSDF proposée améliore significativement la qualité de reconstruction des scènes intérieures grâce à la régularisation par pseudo-plans du champ de distance signée. Ses contributions principales incluent : 1. Une méthode de régularisation basée sur des pseudo-plans, sans nécessiter d’annotations géométriques supplémentaires ou d’hypothèses sur la disposition de la pièce. 2. Une stratégie efficace en deux étapes pour estimer les paramètres des plans pendant l’entraînement. 3. Une stratégie de pondération des points basée sur la fusion des segments de plans provenant de différentes vues, réduisant l’impact du bruit. 4. Une stratégie d’échantillonnage de rayons guidée par des points clés, améliorant l’efficacité de l’entraînement et les détails de reconstruction.
La méthode montre non seulement des performances impressionnantes dans les scènes de type Manhattan, mais généralise également bien aux scènes non-Manhattan, démontrant son potentiel pour des applications variées dans la reconstruction de scènes intérieures complexes.
Points forts de la recherche
- Régularisation par pseudo-plans : En considérant les pixels de couleurs similaires comme des pseudo-plans et en estimant dynamiquement les paramètres des plans, la méthode améliore significativement la reconstruction des régions à faible texture.
- Fusion des segments de plans multi-vues : En fusionnant les segments de plans provenant de différentes vues, l’impact du bruit sur les résultats de reconstruction est réduit.
- Échantillonnage de rayons guidé par points clés : En augmentant la probabilité d’échantillonnage dans les régions texturées, l’efficacité de l’entraînement et les détails de reconstruction sont améliorés.
Autres informations utiles
L’article comprend également de nombreuses expériences d’ablation pour valider l’efficacité de chaque module. Les résultats montrent que la régularisation par pseudo-plans, la fusion des segments de plans multi-vues et la stratégie d’échantillonnage de rayons guidée par points clés contribuent tous de manière significative aux résultats finaux de reconstruction. De plus, l’article démontre que la combinaison de PPlaneSDF avec des méthodes existantes (comme Manhattan-SDF) améliore encore la qualité de reconstruction.
PPlaneSDF ouvre de nouvelles perspectives pour la reconstruction 3D des scènes intérieures, montrant son potentiel pour des applications variées dans des environnements complexes.