分享自:

基于轻量化模型的无人机6D位姿估计

期刊:控制工程DOI:10.14107/j.cnki.kzgc.20240037

本文档属于类型a,即报告了一项原创性研究。以下是对该研究的学术报告:

主要作者及研究机构

本研究的主要作者为肖欣招、郑玉恒、赛庆毅和付东翔,他们分别来自上海理工大学的信息化办公室、能源与动力工程学院以及光电信息与计算机工程学院。该研究发表在《控制工程》(Control Engineering of China)期刊上,网络首发日期为2024年8月12日,DOI为10.14107/j.cnki.kzgc.20240037。

学术背景

随着人工智能、机器人和无人机技术的快速发展,三维位姿估计与抓取的应用需求日益增加。特别是在无人机领域,无人机在军事侦察、农业喷洒、快递运输等领域的应用规模不断扩大,未来大规模无人机集群应用(如蜂群式应用)将成为发展方向之一。然而,目前小型无人机的载荷装填、回收降落等环节仍依赖人工操作,效率低下,难以满足大规模应用需求。视觉引导的机械臂系统可以高效完成无人机的自动抓取、回收降落和载荷装填等任务,显著提升工作效率。本研究旨在提出一种基于轻量化模型的无人机6D位姿估计算法,以解决现有算法在边缘计算平台上实时性和有效性的问题。

研究流程

本研究的主要流程包括以下几个步骤:

  1. 算法设计与改进

    • 研究团队提出了一种基于YOLO6D的无人机目标位姿估计算法CASLIM_YOLO6D。该算法在主干特征提取部分采用GhostNet中的GBneck_1模块,以减少3×3卷积产生的特征冗余。在特征融合部分,通过深度可分离卷积(Depthwise Separable Convolution, DSC)压缩模型参数量和计算量,并引入CBAM注意力机制(Convolutional Block Attention Module)来改善模型压缩导致的精度下降。
    • 具体来说,GBneck_1模块通过线性变化分组卷积替换普通卷积,显著降低了参数量和计算量。深度可分离卷积则通过空间感知和通道信息组合,进一步优化了模型的计算效率。CBAM注意力机制通过通道注意力和空间注意力的结合,提升了模型对关键特征的关注能力。
  2. 数据集制作

    • 由于现有的公共数据集(如Linemod、YCB-Video和T-Less)不包含共轴双旋翼无人机数据,研究团队制作了无人机下半部分管桶的数据集。数据集制作采用基于Arcuo码和Meshlab结合的方法,通过数据采集、点云获取与三维重建、Mask和Label信息生成等步骤,最终生成了符合Linemod格式的数据集。
    • 数据集包含1009张训练集和254张测试集,数据经过必要的数据增强处理。
  3. 模型训练与测试

    • 训练过程中,batch size设置为2,epoch设置为100,学习率初始化为0.001,从第51个epoch开始学习率调整为0.0001。训练损失情况显示,CASLIM_YOLO6D模型在60个epoch后开始收敛,损失值波动最小,表现出最快的收敛速度和最低的损失波动。
    • 测试结果表明,CASLIM_YOLO6D在2D重投影误差(2D Projection)、ADD(-S)和5cm5°等评价指标上表现优异,分别达到95.7%、85.1%和86.8%。
  4. 实验平台搭建与实验验证

    • 研究团队搭建了视觉引导的机械臂抓取系统,硬件包括ZED2i深度相机、基于NVIDIA® Jetson Xavier NX的TW-T506S边缘计算平台和AUBO i10机械臂。实验平台通过手眼系统标定,获得末端坐标系与相机坐标系的转换关系。
    • 实验过程中,ZED2i相机获取目标视频流,机械臂系统根据接收的目标位姿信息控制末端夹爪进行抓取。实验结果显示,CASLIM_YOLO6D算法估计的目标位姿与实际抓取中机械臂末端夹爪位姿的平移相对误差在4.26%以内,旋转绝对误差在1.77°以内,满足实验条件下的抓取精度。

主要结果

  1. 算法性能

    • CASLIM_YOLO6D模型在参数量和计算量上相比原始YOLO6D分别降低了75.1%和61.3%,检测速度提高了61.9%,达到31.9帧/秒,满足实时处理要求。
    • 在自制数据集上的性能实验中,CASLIM_YOLO6D在2D重投影误差、ADD(-S)和5cm5°等指标上均表现优异,特别是在5cm5°指标上优于其他常见姿态估计算法(如BB8、PoseCNN、SSD-6D和PVNet)。
  2. 实验验证

    • 视觉引导的机械臂系统在多次实验中成功抓取共轴双旋翼无人机,验证了CASLIM_YOLO6D算法的可行性和有效性。实验结果显示,算法估计的目标位姿与实际抓取中机械臂末端夹爪位姿的误差在可接受范围内,满足抓取精度要求。

结论

本研究提出了一种基于边缘计算平台的轻量化位姿估计算法CASLIM_YOLO6D,通过引入GBneck_1模块、深度可分离卷积和CBAM注意力机制,显著降低了模型的参数量和计算量,同时保证了位姿估计的精度和实时性。研究团队搭建的视觉引导机械臂抓取系统成功验证了该算法在无人机抓取任务中的可行性和有效性,为后续无人机回收系统算法研究奠定了工作基础。

研究亮点

  1. 算法创新:CASLIM_YOLO6D算法在YOLO6D的基础上进行了多项改进,包括引入GBneck_1模块、深度可分离卷积和CBAM注意力机制,显著提升了模型的效率和精度。
  2. 实验验证:研究团队搭建了完整的视觉引导机械臂抓取系统,并通过多次实验验证了算法的可行性和有效性,为无人机自动化抓取提供了可靠的解决方案。
  3. 应用价值:该研究为无人机回收和载荷装填等智能化系统的实现提供了理论基础和技术支持,具有广泛的应用前景。

其他有价值的内容

研究团队在数据集制作过程中采用了基于Arcuo码和Meshlab结合的方法,成功生成了符合Linemod格式的无人机管桶数据集,为后续相关研究提供了数据支持。此外,研究团队还针对视觉帧丢失或帧率下降等特殊情况采用了重复帧处理方式,进一步提升了系统的鲁棒性。

本研究在无人机6D位姿估计领域取得了重要进展,提出的CASLIM_YOLO6D算法在边缘计算平台上表现出色,为无人机自动化抓取任务提供了高效的解决方案。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com