三次元空間における時空間認識のための立体人工集眼

立体人工复眼用于三维空间的时空感知

本研究文章发表在2024年5月15日的《Science Robotics》期刊上,题为“立体人工复眼用于三维空间的时空感知(Stereoscopic Artificial Compound Eyes for Spatiotemporal Perception in Three-Dimensional Space)”,第一作者为Byungjoon Bae,指导作者为Kyusang Lee。研究团队主要来自University of Virginia的电气与计算机工程系和材料科学与工程系。 立体人工复眼

研究背景

在自然界中,节肢动物(arthropods)的复眼是非常有效的生物视觉系统,具备广阔的视野(Field of View, FOV)和高运动敏感度,而祷蛾(mantodea)则进一步拥有立体视觉能力,这使其能够在三维空间中进行物体识别。而传统的复眼由于单眼视觉的限制,很难获取静态物体的深度信息。因此,为了解决这一问题,同时借鉴祷蛾的视觉系统,研究团队设计了一种模仿祷蛾立体视觉的人工复眼系统,用于三维空间的时空物体感知和跟踪。

研究方法

复眼设计与制备

该研究利用异质集成技术,制造了一种基于砷化镓铟(InGaAs)薄膜的柔性光电二极管,并结合氧化铪(HfO_2)-基随机存取存储器(ReRAM)单元形成一个一光电二极管-一电阻(1P-1R)-结构的焦平面阵列(FPA)。该FPA被制造成半球形,以模仿祷蛾复眼的半球形结构,并通过3D打印与定制的电路板进行集成,以实现系统的光学传感和三维物体检测功能。

具体的制备流程包括: 1. 利用异质材料提升(epitaxial liftoff)技术制造InGaAs光电二极管。 2. 将光电二极管与HfO_2-基ReRAM单元集成在柔性Kapton基材上。 3. 在每个光电二极管上覆盖基于PMMA的微透镜阵列以增强聚焦能力。 4. 将FPA形成为20毫米半径的半球形结构,以实现立体感知。

信号处理与数据分析

为了实现快速响应并最大限度地减少延迟、数据存储和传输消耗,研究团队在系统边缘使用突触器件和联邦分裂学习算法处理视觉信息。该系统的编码输出(在像素级别上处理的时空信息)通过局部处理器上的人工神经网络(ANN)进行进一步处理。具体方法如下: 1. 在每个像素中集成ReRAM器件以实现快速的运动感知。 2. 通过一体化存储和读取过程直接在像素级别编码时空信息,从而减少电能消耗。 3. 利用紧凑的分裂学习(Split Learning, SL)和联邦学习(Federated Learning, FL)相结合的辅助分裂学习(FSL)算法实现高精度、低延迟的数据处理。

模拟与实验验证

为了验证该系统的功能,研究团队通过生成包含100,000个训练数据和20,000个测试数据的三维光线追踪模拟,进行可行性研究。系统通过计算均方误差(RMSE)来评估其精度,结果显示,系统在追踪物体移动时保持了低于0.3厘米的误差率,并表现出1.8毫秒的快速处理速度,即使在使用低性能微处理器的情况下。

系统结构及其优势

与传统的互补金属氧化物半导体(CMOS)成像系统相比,研究团队设计的复眼系统在能效和处理速度上有显著优势。传统系统需要复杂的外围电路和大量的存储空间,而该人工复眼系统通过一体化的感知和处理,大幅度减少了数据传输量并极大地降低了功耗。

结果与讨论

实验结果表明,该人工复眼系统在三维空间中实现了高效、低能耗的时空物体感知和追踪。其在进行物体跟踪时的均方根误差约为0.3厘米,传感和追踪过程仅消耗约4毫焦耳的能量,这比传统CMOS成像系统低了400倍以上。此外,结合FSL算法和突触器件,该系统能够在低功耗的情况下快速、准确地进行数据处理。

研究意义与应用价值

该研究不仅展示了模仿自然中复杂视觉系统的可能性,还通过硬件与软件协同设计的方法,显著提升了边缘计算和感知能力。这一系统有望在未来应用于自动驾驶、无人机导航和其他需要实时三维空间感知及处理的领域,提供极大的科学和应用价值。 这项研究通过模仿祷蛾的复眼系统,结合先进的边缘计算技术,展示了人工视觉系统在精确感知、追踪三维空间物体方面的独特优势。这种创新性的研究方法和成果不仅为人工视觉系统的设计提供了新思路,也为实际应用中的低功耗、高效能视觉处理技术提供了强有力的支持。