基于深度卷积神经网络的监控视频行人检测与跟踪

知网论文查重-摘  要

 

在智慧城市建设快步推进的今天,智能视频监控技术在城市安防、交通管理等行业内,已经呈现出了极其可观的应用价值。随着监控视频数据的指数级增长,寻求更加智能的视频分析算法,已成为计算机视觉研究和应用中的重点和难点。

在监控视频中,行人的检测与跟踪一直处于最为核心的组分。通过行人检测算法,可以自动化定位到视频中每一个行人的具体位置和尺度大小,通过行人跟踪算法,可以将检测到的行人,在连续的视频序列中对行人目标进行持续跟踪,从而获得行人的时间和空间轨迹信息,以便后续实现高层的视频分析应用。最近几年兴起的深度学习热潮,为计算机视觉中的目标检测与跟踪带来了提升性能的重要途径。利用深度学习对海量数据的强大自适应学习能力,实现高精度、高鲁棒性的行人检测与跟踪,成为了本文研究的重点方向。

知网论文查重

知网论文查重

本文深入分析了深度学习与卷积神经网络的算法原理,并通过对Faster RCNN等基于深度卷积神经网络的目标检测算法的研究,提出了一种针对监控视频行人检测问题的Faster RCNN行人检测算法,通过对比实验,用精度和召回率等客观评价指标在多种数据集上,证实了该行人检测算法的有效性,使得行人检测在检测速度近乎实时的情况下,检测精度有了极大的提升。在行人跟踪方面,本文还分别研究了时空上下文目标跟踪算法STC和多层次卷积特征视觉跟踪算法CF2,并对STC算法提出了一种行人尺度线性更新模型,在通过实验验证了行人尺度线性更新的有效性的同时,比较了STC与CF2在行人跟踪的精度与速度等方面的性能。

绪论

研究背景

随着近几年计算机技术的飞速发展,图像和视频的目标检测和跟踪,在智慧城市安防、智能交通、智能机器人导航、智能车辆辅助驾驶和人机交互等领域有着极其重要的应用。在城市交通路口、地铁、机场、银行等重要的城市基础设施场景,遍布着数以万计的监控摄像头,政府和企业等部门通过城市摄像头网络,迫切需要从海量的视频和图像数据中挖掘出关键性的信息,这些信息的主要内容就是行人和车辆。传统的做法是动用数量庞大的人力物力,通过人眼目视观察的方法进行视频监控,而人类存在着视觉注意力有限、数据分析困难、漏报误报多、响应速度慢等根本局限性,早已无法胜任数据量呈指数级增长的需求。如何实现对行人和车辆高精度、高实时性的检测和跟踪,正成为当前学术界和行业内的研究难点和热点。

智能视频监控系统(Intelligent Video Surveillance System)是近几年计算机视觉领域的一个新兴研究方向。它利用计算机视觉技术、图像处理、模式识别、人工智能等方法对摄像机采集的视频数据进行分析、理解、处理,过滤掉视频画面中无用的干扰信息,自动识别不同物体,分析视频中关键有用的信息。并以此为基础对视频监控系统进行控制,从而能视频监控系统具有如同人一般的智能,能够全自动全天候进行监控,并能对异常情况做出实时处理。目前国内外一致公认的完整视频监控系统主要模块如

目标检测和视觉跟踪是计算机视觉(Computer Vision)领域的基本内容和研究热点。其中目标检测与跟踪技术属于视频监控系统的核心部分,检测与跟踪的质量是整个系统性能的保障,而行人正是目标检测和跟踪中最特殊、最关键的关注对象。行人检测就是对于给定的图像和视频,判断是否存在行人并且确定行人所在的图像空间位置和视频时间序列,是行人跟踪、行为分析、步态分析、行人身份识别等研究的基础。在监控视频中,行人等运动目标所处的背景纷繁复杂,行人会经常被遮挡,行人在不同摄像头视角下的形态千差万别,行人的着装以及环境光照条件等也变化多端,这些都对行人的检测与跟踪提出了不小的挑战。中国知网学术不端文献检测系统如图

深度学习(Deep Learning)主要在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制对图像、文本、语音等数据进行解释,最终目标是让机器能够跟人类一样具有分析学习能力,推动人工智能的快速发展。随着计算机硬件的存储和运算能力飞速发展,以及数据体量的急剧扩增,曾经不温不火的深度学习算法,在近三年来不断取得惊人的发展,在图像识别、语音识别、自然语言处理等领域得到了蓬勃的应用和发展。尤其是在2016年3月份,谷歌的DeepMind公司开发的AlphaGo围棋AI程序,利用蒙特卡洛树搜索算法和两个深度卷积神经网络,大比分击败了世界围棋冠军李世石,引起媒体及社会各界对人工智能与深度学习的广泛关注。中国知网学术不端文献检测系统

因此,如果充分利用机器学习和深度学习、计算机视觉、模式识别等理论,创新性地将最新的深度卷积神经网络模型,与传统方法中值得借鉴的方法和理论相结合,提出更加优越的行人检测算法,并实现监控视频中行人的检测和跟踪,最终实现全自动的智能监控视频行人检测与跟踪系统,对于视频监控研究和应用领域将具有十分重要的价值。中国知网学术不端文献检测系统

研究现状

行人的检测与跟踪的研究已经发展了数十年的的时间,在计算机视觉领域内也一直是研究的热门课题。随着检测和跟踪算法的不断发展,行人检测精度和速度都在不断提升,但如1.1中所述,监控视频由于通常存在光照条件极差、成像视角独特、视频内容纷繁复杂等实际应用问题,学术界和工业界科研工作者在这方面投入了很大的精力。每年的计算机视觉三大顶级会议IEEE Conf. Computer Vision and Pattern Recognition(CVPR)、International Conference on Computer Vision(ICCV)、European Conference on Computer Vision(ECCV),以及顶级期刊IEEE Transactions On Pattern Analysis and Machine Intelligence(TPAMI)中,关于物体/行人检测和视觉跟踪的文章,占据了非常大的一部分。

在目标检测方面, 2001年Viola等人通过AdaBoost方法从大量简单的Haar特征中选取判别能力强的特征进行分类,从而实现人脸检测[3],使目标检测得到了突破性的进展,后来被成功地应用到行人检测之中[5]。2005年,Dalal等人[6]提出了梯度方向直方图(HOG, Histogram of oriented gradient)特征,结合简单的线性支持向量机(SVM,Support Vector Machine)分类器,取得了非常好的效果。HOG+SVM行人检测在当时的MIT行人数据库测试集上达到了100%的检测效果,但在INRIA等更加逼近真实生活场景的行人检测数据库上效果较差。随后一系列行人检测方法均基于此进行改进,如Zhu等人[7]利用积分直方图,实现了HOG特征的快速计算。其它的行人特征也不断被提出,Wang等人[8]结合HOG和传统的局部二值模式(LBP)直方图特征,进行行人检测获得较好的效果。中国知网学术不端文献检测系统

2010年,Felenszwalb等人[9]提出了形变部件模型(Deformable Part Model, DPM)。DPM将待检测目标划分为由不同语义层次的部件构成,极好地克服了行人呈现出不同的姿态下的检测难题,并且在PASCAL VOC2011和2012挑战赛目标检测任务中,精度远超其他方法,至今已成为各类高效的目标检测算法基础。中国知网学术不端文献检测系统

而近三年来,深度学习的兴起给计算机视觉领域内,带来了颠覆性的性能提升。深度学习的研究,起始于机器学习领域泰斗、多伦多大学教授Geoffrey Hinton在《科学》上发表的一篇文章[10]。而真正掀起深度学习研究的浪潮,是在2012年有ImageNet举办的国际大规模视觉识别大赛(Image Large Scale Visual Recognition Challenge, ILSVRC2012)中,由Hinton的学生Krizhevsky[11]利用深度卷积神经网络(CNNs)将图像分类任务Top-5分类错误率降低到了15.3%,远超使用传统方法的第二名10%以上,引起了计算机视觉学术界和产业界极大地震动,最近几年,深度学习不断地将视觉识别精度刷到新的高度。如图(1.3)是ImageNet挑战赛近几年视觉识别分类任务Top-5错误率(注:top-5错误率指仅当算法5次的类别预测均为错误时,分类结果才为错误)结果对比。中国知网学术不端文献检测系统

在目标检测方面,深度学习带来了巨大的性能提升。2013年香港中文大学欧阳万里博士在CVPR上的一篇文章[14]中提出JointDeep深度学习模型,将行人检测的特征提取、形变、遮挡、分类等四个组分联结学习,在Caltech行人数据集上使平均错误率降低了9%。2014年Facebook人工智能实验室(FAIR)的的Ross Girshick[15],在CVPR2014一篇文章中提出将目标区域候选框(Region Proposal)与CNNs相结合的目标检测模型RCNN,形成了Region Proposal+CNN的开山之作。随后微软亚洲研究院(MSRA)何凯明[15]基于此框架进行了改进,提出SPPnet目标检测模型,接着Ross Girshick[17]提出了Fast-RCNN,不仅使检测精度进一步提高,而且使得实时的行人检测出现希望。2015年何凯明[18]提出Faster-RCNN模型,通过RPN网络模型实现Region Proposal的快速提取,成为目前使用最广、精度极佳、速度较快的目标检测网络模型。Ross Girshick等人[19]随后提出了YOLO深度网络模型,在达到RCNN同等精度条件下实现了真正的实时行人检测。在2015年12月公布的ImageNet ILSVRC2015中,何凯明[20]等人结合Faster-RCNN,提出152层的深度残差学习模型(Deep Residual Learning),击败谷歌、因特尔、高通等众多业界团队,同时在目标的检测、分类等多项任务中取得第一,引起了广泛的关注。

在目标跟踪方面,目前的跟踪算法总体上可以分为五种类别:基于区域的跟踪,如自适应外观模型[21]、均值漂移(Mean-shift)[22],采用目标的全局信息如灰度纹理等,但极易受目标被遮挡的影响;基于特征的跟踪,如提取Harris角点、SIFT、SUSAN等特征,使用特征匹配的方法;基于轮廓的跟踪,如主动轮廓蛇模型[23]等;基于模型的跟踪,根据先验知识离线地建立该目标的3D或2D几何模型进行跟踪;基于检测的跟踪,将跟踪问题转换为前景目标的检测与背景建模的方法,利用目标检测结果在线更新跟踪结果,这类方法已越来越受到关注。

深度学习由于其对目标特征具有极强的自学习能力,因而同样在视觉跟踪领域表现突出。Wang等人提出使用多层自动编码网络(Multi-layer autoencoder network)的深度学习跟踪器DLT[27],Li等人提出的DeepTrack[28],对不同的目标使用不同的CNN作为分类器,无预训练地实现跟踪;Hong等人[29]使用预训练的CNN学习特定类别的显著性图(saliency map),结合支持向量机SVM实现目标跟踪;卢湖川和CUHK的王晓刚、欧阳万里等人[30],提出用CNN低层和高层特征相结合的方法做特征提取,达到跟踪目的;Ming-Hsuan Yang等人使用CNN的高层和低层特征图,自适应地学习相关滤波器(correlation filters),实现了高精度的视觉跟踪[31]。

研究内容

在智能视频监控系统中,采用基于检测的行人跟踪的前提,是提供高精度、高鲁棒性的行人检测。而目前主流的深度学习目标检测算法,主要针对自然场景图片中的物体,如电视机、桌子、飞机等等,并未针对行人这一特殊目标做特殊的优化。除此之外,通用的物体检测算法,并未考虑到视频序列中的时间、空间相关特性,并且监控系统的应用场景与自然图片极为不同,光照条件、目标大小尺度、拍摄视角等因素也会导致检测结果较差。

因此,本文针对监控视频的应用场景,对目前性能最好的目标检测算法,针对行人特性做相应的优化,形成更加适合监控视频的行人检测算法。然后将检测结果与基于深度学习的视觉跟踪算法相结合,进一步提高系统的整体性能。具体研究内容包括:

1)深度学习框架的使用:基于深度学习的研究方法,如卷积神经网络等,通常需要依赖于基本的深度学习框架,以方便实现网络结构的自主设计、参数的调节等。目前主流的深度学习框架主要有Caffe[33]、Torch[34]、Theano[35]、CNTK[36]以及谷歌开源的TensorFlow[37]等等,本毕业设计拟使用Caffe作为深度学习基础框架,了解其编程接口的使用,卷积神经网络的设计,参数的调优等等。

2)行人检测算法:基于深度学习的行人检测,与传统行人检测算法极为不同。由于网络的超参数空间庞大,参数的调节至关重要。但本文章并不限于将基于CNN的目标检测算法视为黑盒子,而是根据行人的特点,对CNN中各层进行合理的设计与调整,使行人的检测效果达到最佳。本文使用的基准算法为Faster RCNN,进行相应改造后,与其它方法做对比实验。

3)行人跟踪算法:本文的行人跟踪算法,着眼在单摄像头视频序列内行人的跟踪。跟踪算法分别对比传统手工特征的时空上下文目标跟踪算法,和基于深度学习的相关算法,深度学习的方法为主,并结合行人检测提高行人跟踪精度和鲁棒性。

抢沙发

昵称*

邮箱*

网址