本文档属于类型a,即报告了一项原创性研究。以下是对该研究的学术报告:
本研究的作者包括王梦来、李想、陈奇、李澜博和赵衍运,均来自北京邮电大学信息与通信工程学院。该研究发表于2016年6月的《自动化学报》(Acta Automatica Sinica)第42卷第6期。
本研究属于计算机视觉和深度学习领域,旨在解决复杂监控视频中事件检测的难题。具体而言,研究团队针对TRECVID-SED(Surveillance Event Detection)评测中使用的高难度机场监控视频数据集,提出了一种基于卷积神经网络(CNN,Convolutional Neural Network)级联网络和轨迹分析的综合事件检测方案。研究背景包括监控视频事件检测技术的快速发展及其在实际应用中的重要性,尤其是TRECVID-SED评测自2008年设立以来,吸引了全球众多研究机构的参与,但其数据集因背景复杂、人群密集、遮挡严重等特点,事件检测仍面临巨大挑战。
本研究的主要目标是提出一种高效的事件检测框架,能够在复杂监控视频中准确检测个体事件和群体事件。具体目标包括:1)在拥挤场景中准确检测行人,为后续跟踪和事件检测奠定基础;2)利用CNN网络检测具有关键姿态的个体事件;3)通过轨迹分析检测群体事件;4)提高事件检测的准确性和鲁棒性。
本研究分为多个步骤,具体如下:
行人检测
研究团队提出了一种基于CNN级联网络(HSNet,Head-Shoulder Networks)的行人检测方法。HSNet由三级CNN网络构成,分别用于快速剔除明显负样本、进一步剔除负样本和精确分类困难样本。检测过程包括多尺度滑窗截取图像块、级联网络分类、头肩框扩展和非极大值抑制等步骤。HSNet有效解决了拥挤场景中的遮挡问题,并提高了检测速度和准确性。
行人跟踪
基于HSNet的行人检测结果,研究团队采用了一种改进的多目标跟踪算法。该算法通过高斯过程回归(GPR,Gaussian Process Regression)平滑轨迹片段,解决了头肩区域位置跳变问题,并提高了轨迹的完整性和平滑性。跟踪算法为后续的轨迹分析提供了可靠的数据基础。
基于姿态的个体事件检测
对于具有关键姿态的个体事件(如“指”、“拥抱”、“放东西”、“跑”),研究团队分别训练了CNN模型进行检测。检测过程包括截取候选图像块、CNN分类和事件融合等步骤。通过检测关键姿态,研究团队成功将复杂的事件检测问题简化为二维空间中的姿态识别问题。
基于轨迹分析的群体事件检测
对于群体事件(如“人员聚集”、“人员分离”),研究团队提出了基于轨迹分析的检测方案。该方案通过分析行人轨迹之间的关系,识别事件的起始和结束状态。具体步骤包括停留状态检测、候选事件集生成和事件鉴别等。轨迹分析方法有效捕捉了行人之间的相互关系,提高了群体事件检测的准确性。
实验与结果分析
研究团队在TRECVID-SED2015评测数据集上进行了实验,验证了所提出方法的有效性。实验结果表明,在6个事件检测任务中,研究团队在3个任务中排名第一,2个任务中排名第二,1个任务中排名第四。具体结果如下:
本研究提出的基于CNN和轨迹分析的监控视频事件检测框架,在TRECVID-SED2015评测中取得了显著的成绩,证实了其有效性和优越性。该框架不仅解决了复杂监控视频中的行人检测和事件检测难题,还为实际应用提供了可靠的技术支持。研究的科学价值在于提出了一种分层次解决高维事件分析问题的方法,应用价值在于为智能监控系统的发展提供了新的思路。
本研究还建立了大规模的监控视频行人检测标注库,为后续研究提供了宝贵的数据资源。此外,研究团队提出的HSNet和改进的跟踪算法,也为计算机视觉领域的其他研究提供了新的参考。