基于深度卷积神经网络的监控视频行人检测与跟踪

时间：2016-11-02 12:00:00 编辑：知网阅读：次

知网论文查重-摘要

在智慧城市建设快步推进的今天，智能视频监控技术在城市安防、交通管理等行业内，已经呈现出了极其可观的应用价值。随着监控视频数据的指数级增长，寻求更加智能的视频分析算法，已成为计算机视觉研究和应用中的重点和难点。

在监控视频中,行人的检测与跟踪一直处于最为核心的组分。通过行人检测算法，可以自动化定位到视频中每一个行人的具体位置和尺度大小，通过行人跟踪算法，可以将检测到的行人，在连续的视频序列中对行人目标进行持续跟踪，从而获得行人的时间和空间轨迹信息，以便后续实现高层的视频分析应用。最近几年兴起的深度学习热潮，为计算机视觉中的目标检测与跟踪带来了提升性能的重要途径。利用深度学习对海量数据的强大自适应学习能力，实现高精度、高鲁棒性的行人检测与跟踪，成为了本文研究的重点方向。

知网论文查重

本文深入分析了深度学习与卷积神经网络的算法原理，并通过对Faster RCNN等基于深度卷积神经网络的目标检测算法的研究，提出了一种针对监控视频行人检测问题的Faster RCNN行人检测算法，通过对比实验，用精度和召回率等客观评价指标在多种数据集上，证实了该行人检测算法的有效性，使得行人检测在检测速度近乎实时的情况下，检测精度有了极大的提升。在行人跟踪方面，本文还分别研究了时空上下文目标跟踪算法STC和多层次卷积特征视觉跟踪算法CF2，并对STC算法提出了一种行人尺度线性更新模型，在通过实验验证了行人尺度线性更新的有效性的同时，比较了STC与CF2在行人跟踪的精度与速度等方面的性能。

绪论

研究背景

随着近几年计算机技术的飞速发展，图像和视频的目标检测和跟踪，在智慧城市安防、智能交通、智能机器人导航、智能车辆辅助驾驶和人机交互等领域有着极其重要的应用。在城市交通路口、地铁、机场、银行等重要的城市基础设施场景，遍布着数以万计的监控摄像头，政府和企业等部门通过城市摄像头网络，迫切需要从海量的视频和图像数据中挖掘出关键性的信息，这些信息的主要内容就是行人和车辆。传统的做法是动用数量庞大的人力物力，通过人眼目视观察的方法进行视频监控，而人类存在着视觉注意力有限、数据分析困难、漏报误报多、响应速度慢等根本局限性，早已无法胜任数据量呈指数级增长的需求。如何实现对行人和车辆高精度、高实时性的检测和跟踪，正成为当前学术界和行业内的研究难点和热点。

智能视频监控系统（Intelligent Video Surveillance System）是近几年计算机视觉领域的一个新兴研究方向。它利用计算机视觉技术、图像处理、模式识别、人工智能等方法对摄像机采集的视频数据进行分析、理解、处理，过滤掉视频画面中无用的干扰信息，自动识别不同物体，分析视频中关键有用的信息。并以此为基础对视频监控系统进行控制，从而能视频监控系统具有如同人一般的智能，能够全自动全天候进行监控，并能对异常情况做出实时处理。目前国内外一致公认的完整视频监控系统主要模块如

目标检测和视觉跟踪是计算机视觉（Computer Vision）领域的基本内容和研究热点。其中目标检测与跟踪技术属于视频监控系统的核心部分，检测与跟踪的质量是整个系统性能的保障，而行人正是目标检测和跟踪中最特殊、最关键的关注对象。行人检测就是对于给定的图像和视频，判断是否存在行人并且确定行人所在的图像空间位置和视频时间序列，是行人跟踪、行为分析、步态分析、行人身份识别等研究的基础。在监控视频中，行人等运动目标所处的背景纷繁复杂，行人会经常被遮挡，行人在不同摄像头视角下的形态千差万别，行人的着装以及环境光照条件等也变化多端，这些都对行人的检测与跟踪提出了不小的挑战。中国知网学术不端文献检测系统如图

深度学习（Deep Learning）主要在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制对图像、文本、语音等数据进行解释，最终目标是让机器能够跟人类一样具有分析学习能力，推动人工智能的快速发展。随着计算机硬件的存储和运算能力飞速发展，以及数据体量的急剧扩增，曾经不温不火的深度学习算法，在近三年来不断取得惊人的发展，在图像识别、语音识别、自然语言处理等领域得到了蓬勃的应用和发展。尤其是在2016年3月份，谷歌的DeepMind公司开发的AlphaGo围棋AI程序，利用蒙特卡洛树搜索算法和两个深度卷积神经网络，大比分击败了世界围棋冠军李世石，引起媒体及社会各界对人工智能与深度学习的广泛关注。中国知网学术不端文献检测系统

因此，如果充分利用机器学习和深度学习、计算机视觉、模式识别等理论，创新性地将最新的深度卷积神经网络模型，与传统方法中值得借鉴的方法和理论相结合，提出更加优越的行人检测算法，并实现监控视频中行人的检测和跟踪，最终实现全自动的智能监控视频行人检测与跟踪系统，对于视频监控研究和应用领域将具有十分重要的价值。中国知网学术不端文献检测系统

研究现状

行人的检测与跟踪的研究已经发展了数十年的的时间，在计算机视觉领域内也一直是研究的热门课题。随着检测和跟踪算法的不断发展，行人检测精度和速度都在不断提升，但如1.1中所述，监控视频由于通常存在光照条件极差、成像视角独特、视频内容纷繁复杂等实际应用问题，学术界和工业界科研工作者在这方面投入了很大的精力。每年的计算机视觉三大顶级会议IEEE Conf. Computer Vision and Pattern Recognition(CVPR)、International Conference>研究内容

在智能视频监控系统中，采用基于检测的行人跟踪的前提，是提供高精度、高鲁棒性的行人检测。而目前主流的深度学习目标检测算法，主要针对自然场景图片中的物体，如电视机、桌子、飞机等等，并未针对行人这一特殊目标做特殊的优化。除此之外，通用的物体检测算法，并未考虑到视频序列中的时间、空间相关特性，并且监控系统的应用场景与自然图片极为不同，光照条件、目标大小尺度、拍摄视角等因素也会导致检测结果较差。

因此，本文针对监控视频的应用场景，对目前性能最好的目标检测算法,针对行人特性做相应的优化，形成更加适合监控视频的行人检测算法。然后将检测结果与基于深度学习的视觉跟踪算法相结合，进一步提高系统的整体性能。具体研究内容包括：

1）深度学习框架的使用：基于深度学习的研究方法，如卷积神经网络等，通常需要依赖于基本的深度学习框架，以方便实现网络结构的自主设计、参数的调节等。目前主流的深度学习框架主要有Caffe[33]、Torch[34]、Theano[35]、CNTK[36]以及谷歌开源的TensorFlow[37]等等，本毕业设计拟使用Caffe作为深度学习基础框架，了解其编程接口的使用，卷积神经网络的设计，参数的调优等等。

2）行人检测算法：基于深度学习的行人检测，与传统行人检测算法极为不同。由于网络的超参数空间庞大，参数的调节至关重要。但本文章并不限于将基于CNN的目标检测算法视为黑盒子，而是根据行人的特点，对CNN中各层进行合理的设计与调整，使行人的检测效果达到最佳。本文使用的基准算法为Faster RCNN，进行相应改造后，与其它方法做对比实验。

3）行人跟踪算法：本文的行人跟踪算法，着眼在单摄像头视频序列内行人的跟踪。跟踪算法分别对比传统手工特征的时空上下文目标跟踪算法，和基于深度学习的相关算法，深度学习的方法为主，并结合行人检测提高行人跟踪精度和鲁棒性。

中国知网论文查重检测系统入口

截止目前累计成功为5,000,000 用户成功查重检测

论文查重产品

查重销量排行

新闻中心

基于深度卷积神经网络的监控视频行人检测与跟踪

相关文章

论文查重产品

查重销量排行

新闻中心

推荐阅读

基于深度卷积神经网络的监控视频行人检测与跟踪

相关文章