Yeux composés artificiels stéréoscopiques pour la perception spatiotemporelle dans l'espace tridimensionnel

2024-05-28 Tue
vision stéréoscopique yeux composés artificiels espace tridimensionnel calcul périphérique biomimétisme
Des yeux composés artificiels stéréoscopiques pour la perception spatiotemporelle dans l’espace tridimensionnelCet article de recherche a été publié le 15 mai 2024 dans la revue « Science Robotics », intitulé « Des yeux composés artificiels stéréoscopiques pour la perception spatiotemporelle dans l’espace tridimensionnel (Stereoscopic Artificial Compound Eyes for Spatiotemporal Perception in Three-Dimensional Space) », avec Byungjoon Bae comme premier auteur et Kyusang Lee comme auteur conseiller. L’équipe de recherche est principalement issue des départements de génie électrique et informatique et de science et ingénierie des matériaux de l’Université de Virginie.
Contexte de l’étudeDans la nature, les yeux composés des arthropodes sont des systèmes de vision biologique très efficaces, offrant un large champ de vision (Field of View, FOV) et une haute sensibilité au mouvement. Les mantes religieuses possèdent en plus une capacité de vision stéréoscopique qui leur permet de détecter des objets dans l’espace tridimensionnel. En revanche, les yeux composés traditionnels, limités par la vision monoculaire, ont du mal à obtenir des informations de profondeur sur des objets statiques. Afin de résoudre ce problème et de s’inspirer du système visuel des mantes religieuses, l’équipe de recherche a conçu un système d’yeux composés artificiels imitant la vision stéréoscopique des mantes religieuses pour la perception et le suivi spatiotemporels des objets dans l’espace tridimensionnel.
MéthodologieConception et fabrication des yeux composésDans cette étude, une technologie d’intégration hétérogène a été utilisée pour fabriquer un photodiode flexible à base de film mince d’indium gallium arsenide (InGaAs), combiné avec une mémoire à accès aléatoire résistive (ReRAM) à base d’oxyde d’hafnium (HfO_2), formant une matrice de plan focal (FPA) avec une structure photodiode-résistance (1P-1R). Ce FPA a été façonné en hémisphère pour imiter la structure hémisphérique des yeux composés des mantes religieuses et intégré avec une carte de circuit imprimé personnalisée à l’aide de l’impression 3D afin de réaliser la détection optique et la perception d’objets en trois dimensions.
Le processus de fabrication spécifique comprend :
1. Utilisation de la technologie de levée épitaxiale pour fabriquer les photodiodes InGaAs.
2. Intégration des photodiodes avec les cellules ReRAM à base de HfO_2 sur un substrat flexible en Kapton.
3. Couverture de chaque photodiode avec une matrice de microlentilles en PMMA pour améliorer la capacité de mise au point.
4. Formation du FPA en une structure hémisphérique de 20 mm de rayon pour atteindre la perception stéréoscopique.
Traitement des signaux et analyse des donnéesPour obtenir une réponse rapide tout en minimisant les délais, la consommation de stockage et de transmission des données, l’équipe de recherche a utilisé des dispositifs synaptiques et un algorithme d’apprentissage fédéré à l’edge du système pour traiter les informations visuelles. La sortie codée du système (information spatiotemporelle traitée au niveau du pixel) est ensuite traitée par un réseau neuronal artificiel (ANN) sur un processeur local. Les méthodes spécifiques sont les suivantes :
1. Intégration des dispositifs ReRAM dans chaque pixel pour une détection rapide du mouvement.
2. Codage direct de l’information spatiotemporelle au niveau du pixel grâce à un processus de stockage et de lecture intégré pour réduire la consommation d’énergie.
3. Utilisation d’un algorithme combinant apprentissage fédéré (Federated Learning, FL) et apprentissage par division compacte (Split Learning, SL), appelé apprentissage par division assistée (FSL), pour réaliser un traitement des données précis et à faible latence.
Simulation et validation expérimentalePour valider les fonctionnalités de ce système, l’équipe de recherche a réalisé une étude de faisabilité en générant une simulation de tracé de rayons en 3D contenant 100 000 données d’entraînement et 20 000 données de test. Le système a évalué sa précision en calculant l’erreur quadratique moyenne (RMSE), montrant que l’erreur de suivi des objets en mouvement restait inférieure à 0,3 cm avec une vitesse de traitement rapide de 1,8 millisecondes, même en utilisant un microprocesseur de basse performance.
Architecture du système et avantagesComparé aux systèmes d’imagerie CMOS traditionnels, le système d’yeux composés conçu par l’équipe de recherche présente des avantages significatifs en termes d’efficacité énergétique et de vitesse de traitement. Les systèmes traditionnels nécessitent des circuits périphériques complexes et une grande capacité de stockage, tandis que ce système d’yeux composés artificiels réduit considérablement le volume de données transmises et la consommation d’énergie grâce à une perception et un traitement intégrés.
Résultats et discussionLes résultats expérimentaux montrent que ce système d’yeux composés artificiels réalise la perception spatiotemporelle des objets avec une efficacité et une faible consommation d’énergie dans l’espace tridimensionnel. Lors du suivi des objets, l’erreur quadratique moyenne est d’environ 0,3 cm, et la détection et le suivi ne consomment qu’environ 4 millijoules d’énergie, soit plus de 400 fois moins que les systèmes d’imagerie CMOS traditionnels. De plus, combiné à l’algorithme FSL et aux dispositifs synaptiques, ce système peut traiter les données rapidement et avec précision tout en maintenant une faible consommation d’énergie.
Signification de la recherche et valeur applicativeCette recherche démontre non seulement la possibilité d’imiter les systèmes de vision complexes présents dans la nature, mais améliore également considérablement les capacités de calcul et de détection à l’edge grâce à une conception matérielle et logicielle collaborative. Ce système est prometteur pour des applications futures dans les domaines de la conduite autonome, de la navigation des drones et d’autres domaines nécessitant une perception et un traitement en temps réel des espaces tridimensionnels, offrant une grande valeur scientifique et pratique.
En imitant le système visuel des mantes religieuses et en intégrant une technologie de calcul avancée, cette recherche montre les avantages uniques des systèmes de vision artificielle dans la perception et le suivi précis des objets dans l’espace tridimensionnel. Cette approche innovante et les résultats obtenus fournissent non seulement de nouvelles idées pour la conception de systèmes de vision artificielle, mais également un support solide pour les technologies de traitement visuel efficace à faible consommation d’énergie dans des applications pratiques.