CLASH:基于互补学习与神经架构搜索的步态识别框架
CLASH:基于互补学习与神经架构搜索的步态识别框架
研究背景
步态识别是一种通过个体的行走模式进行身份识别的生物识别技术。这种技术由于可以在远距离无须个体合作的条件下进行,因此在安全检查、视频检索和身份识别等领域有着广泛的应用。然而,基于人影轮廓的识别方法存在一些问题:二值化的稀疏边界表示缺乏丰富的时空信息,使得轮廓大部分像素对步态模式不敏感。为了提高对步态模式的敏感性,同时保持识别的鲁棒性,本文引入了一种基于神经架构搜索的互补学习(Complementary Learning with Neural Architecture Search, CLASH)框架,旨在解决上述问题。
论文来源
本文由Huanzhang Dou、Pengyi Zhang、Yuhan Zhao、Lu Jin和Xi Li撰写,分别来自浙江大学和Ant Group。该论文发表于2021年8月第14卷第8期的《Journal of Latex Class Files》。
研究流程
本文的研究流程主要包括三个部分:开发步态描述符、进行互补学习以及实验验证。
步态描述符的开发
首先,作者提出了一种名为密集时空域(Dense Spatial-Temporal Field, DSTF)的步态描述符,通过从二值边界转换为基于密集距离的纹理表示,来捕捉细微的运动变化。该方法使用双向距离变换(Bidirectional Distance Transform, Bi-DT)将每个像素的值转换为其与最近边界像素的距离。考虑到前景和背景之间的语义和像素分布不同,作者提出了前景/背景分离策略,通过带符号的距离函数和归一化对前景和背景进行显式分离。
互补学习
为了有效地利用步态描述符DSTF的敏感性和人影轮廓的鲁棒性,本文提出了基于神经架构搜索(Neural Architecture Search, NAS)的互补学习方法。具体来说,作者设计了一个任务特定的搜索空间,通过双层优化和多描述符单元(Multi-Descriptor Cell, MD)集成人影轮廓和DSTF的特征。
实验结果
实验结果表明,无论是在实验室环境中,还是在真实环境中,本文提出的方法在多个主流数据集上的表现都优于现有方法。
在实验室环境中的表现
在CASIA-B数据库上,CLASH框架在常见的三个测试条件下(正常、带包和衣着变化)都取得了显著的性能提升。特别是在分辨率为128×88的情况下,Rank-1准确率达到了98.8%、96.5%和89.3%。
在OU-MVLP数据库上,CLASH框架在所有角度的平均Rank-1准确率达到了91.9%,显著优于之前的最佳方法。
在现实环境中的表现
在最新的真实环境数据集Gait3D和GREW上,CLASH框架分别提升了16.3%和19.7%的Rank-1准确率,显著优于基于人影轮廓的方法,并且在某些条件下甚至优于依赖额外3D信息的方法。
研究结论与价值
本文提出的CLASH框架,通过结合基于密集距离的纹理表示和基于神经架构搜索的互补学习方法,有效地提高了步态识别的准确性和鲁棒性。特别是DSTF描述符通过捕捉细微的运动变化来提高对步态模式的敏感性,同时利用前景/背景分离策略解决了数值问题。通过NAS实现的互补学习不仅减少了人工调试的工作量,还保证了不同步态描述符之间的高效互补。这些创新之处为步态识别研究提供了新的思路和工具,具有重要的科学和应用价值。
亮点与创新
- 步态描述符DSTF:通过双向距离变换和前景/背景分离策略,显著提高了对行走模式的敏感性。
- 神经架构搜索的互补学习:利用NAS自动设计互补学习架构,提高了人影轮廓和DSTF特征的融合效果。
- 实验结果:在实验室环境和真实环境中,CLASH框架在多个数据集上均表现优异,验证了其有效性和鲁棒性。
通过本文提出的方法,步态识别技术在准确性和鲁棒性方面取得了显著进步,为其在安全监控、身份识别等实际应用中提供了更坚实的技术支持。未来的研究可以在更多的实际场景中测试和优化该方法,进一步推动步态识别技术的发展和应用。