Một phương pháp học sâu để xây dựng hệ thống giám sát video thông minh

Multimedia Tools and Applications - Tập 80 - Trang 5495-5515 - 2020
Jie Xu1
1Department of Computer Science, The University of Manchester, Manchester, UK

Tóm tắt

Những tiến bộ gần đây trong lĩnh vực phát hiện đối tượng và nhận diện khuôn mặt đã cho phép phát triển các hệ thống giám sát video thực tiễn, với những chức năng phát hiện đối tượng và nhận diện khuôn mặt chính xác và nhanh chóng đủ cho các ứng dụng thương mại. Trong bài báo này, chúng tôi so sánh một số phương pháp gần đây nhất về phát hiện đối tượng và nhận diện khuôn mặt, đồng thời cung cấp lý do tại sao chúng có thể hoặc không thể là những phương pháp tốt nhất để sử dụng trong các ứng dụng giám sát video, xét về cả độ chính xác và tốc độ. Chúng tôi phát hiện ra rằng Faster R-CNN với Inception ResNet V2 có thể đạt được một số độ chính xác tốt nhất trong khi duy trì tốc độ thời gian thực. Single Shot Detector (SSD) với MobileNet, mặt khác, lại cực kỳ nhanh và vẫn đủ chính xác cho hầu hết các ứng dụng. Đối với việc nhận diện khuôn mặt, FaceNet với Mạng Học Chuyển Giao Đa Nhiệm (MTCNN) đạt được độ chính xác cao hơn so với các tiến bộ như DeepFace và DeepID2+ trong khi vẫn nhanh hơn. Một hệ thống giám sát video end-to-end cũng được đề xuất, có thể được sử dụng như một điểm khởi đầu cho các hệ thống phức tạp hơn. Nhiều thí nghiệm cũng được thực hiện trên các mô hình đã được đào tạo với các quan sát được giải thích chi tiết. Chúng tôi kết thúc bằng cách thảo luận về các phương pháp phát hiện đối tượng video và phát hiện đối tượng nổi bật trong video, những phương pháp này có thể được sử dụng như các cải tiến tương lai cho hệ thống được đề xuất.

Từ khóa

#giám sát video #phát hiện đối tượng #nhận diện khuôn mặt #học sâu #hệ thống thông minh

Tài liệu tham khảo

Abadi M, Agarwal A, Barham P, Brevdo E, Chen Z, Citro C, Corrado GS, Davis A, Dean J, Devin M, Ghemawat S, Goodfellow IJ, Harp A, Irving G, Isard M, Jia Y, Józefowicz R, Kaiser L, Kudlur M, Levenberg J, Mané D, Monga R, Moore S, Murray DG, Olah C, Schuster M, Shlens J, Steiner B, Sutskever I, Talwar K, Tucker PA, Vanhoucke V, Vasudevan V, Viégas FB, Vinyals O, Warden P, Wattenberg M, Wicke M, Yu Y, Zheng X (2016) Tensorflow: Large-scale machine learning on heterogeneous distributed systems. arXiv:1603.04467 Amos B, Ludwiczuk B, Satyanarayanan M (2016) Openface: A general-purpose face recognition library with mobile applications. Tech. rep., CMU-CS-16-118 CMU School of Computer Science Borji A, Cheng MM, Hou Q, Jiang H, Li J (2019) Salient object detection: a survey. In: Computational visual media, vol 5, pp 117—-150 Cao Q, Shen L, Xie W, Parkhi OM, Zisserman A (2018) VGGFAce2: A dataset for recognising faces across pose and age. In: International conference on automatic face and gesture recognition Dai J, Li Y, He K, Sun J (2016) R-FCN: Object detection via region-based fully convolutional networks. In: Lee DD, Sugiyama M, Luxburg UV, Guyon I, Garnett R (eds) Advances in neural information processing systems 29. Curran Associates, Inc., pp 379–387. http://papers.nips.cc/paper/6465-r-fcn-object-detection-via-region-based-fully-convolutional-networks.pdf Elkin M (2020) Crime in England and wales: year ending September 2019. Office for National Statistics, Newport UK Fan DP, Wang W, Cheng MM, Shen J (2019) Shifting more attention to video salient object detection. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (CVPR) Farrington DP, Gill M, Waples SJ, Argomaniz J (2007) The effects of closed-circuit television on crime: meta-analysis of an English national quasi-experimental multi-site evaluation. J Exp Criminol 3:21–38. https://doi.org/10.1007/s11292-007-9024-2 Girshick R (2015) Fast r-CNN. In: The IEEE international conference on computer vision (ICCV) Girshick R, Donahue J, Darrell T, Malik J (2014) Rich feature hierarchies for accurate object detection and semantic segmentation. In: The IEEE conference on computer vision and pattern recognition (CVPR) Gool LV, Williams CKI, John Winn AZ (2010) The pascal visual object classes (VOC) challenge. Int J Comput Vis 88:303–338 He K, Zhang X, Ren S, Sun J (2015) Spatial pyramid pooling in deep convolutional networks for visual recognition. IEEE Trans Pattern Anal Mach Intel 37(9):1904–1916 He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: The IEEE conference on computer vision and pattern recognition (CVPR) Howard AG, Zhu M, Chen B, Kalenichenko D, Wang W, Weyand T, Andreetto M, Adam H (2017) MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. arXiv:1704.04861 Huang GB, Ramesh M, Berg T, Learned-Miller E (2007) Labeled faces in the wild: a database for studying face recognition in unconstrained environments. Tech. Rep. 07–49, university of massachusetts amherst Huang J, Rathod V, Sun C, Zhu M, Korattikara A, Fathi A, Fischer I, Wojna Z, Song Y, Guadarrama S, Murphy K (2017) Speed/Accuracy Trade-Offs for modern convolutional object detectors. In: The IEEE conference on computer vision and pattern recognition (CVPR) Ioffe S, Szegedy C (2015) Batch normalization: accelerating deep network training by reducing internal covariate shift. arXiv:http://arxiv.org/abs1502.03167 Jia Y, Shelhamer E, Donahue J, Karayev S, Long J, Girshick R, Guadarrama S, Darrell T (2014) Caffe: Convolutional Architecture for Fast Feature Embedding. arXiv:1408.5093 Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Fei-Fei L (2014) Large-Scale Video classification with convolutional neural networks. In: 2014 IEEE Conference on computer vision and pattern recognition, pp 1725–1732 Kuznetsova A, Rom H, Alldrin N, Uijlings J, Krasin I, Pont-Tuset J, Kamali S, Popov S, Malloci M, Duerig T, Ferrari V (2018) The Open Images Dataset V4:, Unified image classification, object detection, and visual relationship detection at scale. arXiv:1811.00982 LeCun Y, Bengio Y, Hinton G (2015) Deep learning. In: Nature, vol 521, pp 436–444 Lin TY, Maire M, Belongie S, Bourdev L, Girshick R, Hays J, Perona P, Ramanan D, Zitnick CL, Dollá P. (2014) Microsoft COCO: common objects in context. In: Fleet D, Pajdla T, Schiele B, Tuytelaars T (eds) Computer vision – ECCV 2014. Springer International Publishing, Cham, pp 740–755 Liu L, Ouyang W, Wang X, Chen J, Liu X, Pietikäinen M (2020) Deep learning for generic object detection: a survey. In: International journal of computer vision, vol 128, pp 261–318 Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu CY, Berg AC (2016) SSD: Single shot MultiBox detector. In: Leibe B, Matas J, Sebe N, Welling M (eds) Computer vision – ECCV 2016. Springer International Publishing, Cham, pp 21–37 Lomonaco V CORe50. https://vlomonaco.github.io/core50/#differences (2019). Accessed: 15-09-2020 Lomonaco V, Maltoni D (2017) CORE50: A new dataset and benchmark for continuous object recognition. In: Levine S, Vanhoucke V, Goldberg K (eds) Proceedings of machine learning research, vol 78, pp 17–26 Lomonaco V, Maltoni D, Pellegrini L (2019) Fine-Grained Continual Learning. Computing Research Repository . arXiv:1907.03799 McCabe DL, Butterfield KD, Treviño LK (2017) Cheating in college: why students do it and what educators can do about it. The Johns Hopkins University Press, Baltimore Meinhardt PBT, Leal-Taixe L (2019) Tracking without bells and whistles. In: Proceedings of the IEEE/CVF international conference on computer vision (ICCV) Parkhi OM, Vedaldi A, Zisserman A (2015) Deep face recognition. In: Xie X, Jones MW, Tam GKL (eds) Proceedings of the British machine vision conference (BMVC). BMVA Press, pp 41.1–41.12. https://doi.org/10.5244/C.29.41 Redmon J, Divvala S, Girshick R, Farhadi A (2016) You only look once: unified, Real-Time object detection. In: The IEEE conference on computer vision and pattern recognition (CVPR) Ren S, He K, Girshick R, Sun J (2015) Faster R-CNN: Towards real-time object detection with region proposal networks. In: Cortes C, Lawrence ND, Lee DD, Sugiyama M, Garnett R (eds) Advances in neural information processing systems 28. Curran Associates, Inc., pp 91–99. http://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks.pdf Sandberg D Face Recognition using Tensorflow. https://github.com/davidsandberg/facenet (2018). Accessed: 12-04-2020 Schroff F, Dmitry Kalenichenko JP (2015) Facenet: A Unified Embedding for Face Recognition and Clustering. In: The IEEE conference on computer vision and pattern recognition (CVPR) Simonyan K, Zisserman A (2015) Very deep convolutional networks for Large-Scale image recognition. In: International conference on learning representations (ICLR) Sun Y, Xiaogang Wang XT (2015) Deeply learned face representations are sparse, selective, and robust. In: The IEEE conference on computer vision and pattern recognition (CVPR) Szegedy C, Ioffe S, Vanhoucke V, Alemi A (2017) Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning. https://www.aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14806/14311 Taigman Y, Yang M, Ranzato M, Wolf L (2014) Deepface: Closing the gap to human-level performance in face verification. In: The IEEE conference on computer vision and pattern recognition (CVPR) Tran D, Bourdev L, Fergus R, Torresani L, Paluri M (2015) Learning spatiotemporal features with 3D convolutional networks. In: 2015 IEEE International conference on computer vision (ICCV), pp 4489–4497 Uijlings JRR, van de Sande KEA, Gevers T, Smeulders AWM (2013) Selective search for object recognition. Int J Comput Vis 104:154–171 Wang S, Zhou Y, Yan J, Deng Z (2018) Fully Motion-Aware network for video object detection. In: Proceedings of the European conference on computer vision (ECCV) Wang W, Zhao S, Shen J, Hoi SCH, Borji A (2019) Salient object detection with pyramid attention and salient edges. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (CVPR) Wolf L, Hassner T, Maoz I (2011) Face recognition in unconstrained videos with matched background similarity. In: The IEEE conference on computer vision and pattern recognition (CVPR) Zhang K, Zhang Z, Li Z, Qiao Y (2016) Joint face detection and alignment using multitask cascaded convolutional networks. IEEE Signal Process Lett 23(10):1499–1503. https://doi.org/10.1109/LSP.2016.2603342 Zhao JX, Liu JJ, Fan DP, Cao Y, Yang JF, Cheng MM (2019) EGNEt: Edge guidance network for salient object detection. In: Proceedings of the IEEE/CVF international conference on computer vision (ICCV) Zhu X, Dai J, Yuan L, Wei Y (2018) Towards high performance video object detection. In: Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR)