Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Một phương pháp học sâu để xây dựng hệ thống giám sát video thông minh
Tóm tắt
Những tiến bộ gần đây trong lĩnh vực phát hiện đối tượng và nhận diện khuôn mặt đã cho phép phát triển các hệ thống giám sát video thực tiễn, với những chức năng phát hiện đối tượng và nhận diện khuôn mặt chính xác và nhanh chóng đủ cho các ứng dụng thương mại. Trong bài báo này, chúng tôi so sánh một số phương pháp gần đây nhất về phát hiện đối tượng và nhận diện khuôn mặt, đồng thời cung cấp lý do tại sao chúng có thể hoặc không thể là những phương pháp tốt nhất để sử dụng trong các ứng dụng giám sát video, xét về cả độ chính xác và tốc độ. Chúng tôi phát hiện ra rằng Faster R-CNN với Inception ResNet V2 có thể đạt được một số độ chính xác tốt nhất trong khi duy trì tốc độ thời gian thực. Single Shot Detector (SSD) với MobileNet, mặt khác, lại cực kỳ nhanh và vẫn đủ chính xác cho hầu hết các ứng dụng. Đối với việc nhận diện khuôn mặt, FaceNet với Mạng Học Chuyển Giao Đa Nhiệm (MTCNN) đạt được độ chính xác cao hơn so với các tiến bộ như DeepFace và DeepID2+ trong khi vẫn nhanh hơn. Một hệ thống giám sát video end-to-end cũng được đề xuất, có thể được sử dụng như một điểm khởi đầu cho các hệ thống phức tạp hơn. Nhiều thí nghiệm cũng được thực hiện trên các mô hình đã được đào tạo với các quan sát được giải thích chi tiết. Chúng tôi kết thúc bằng cách thảo luận về các phương pháp phát hiện đối tượng video và phát hiện đối tượng nổi bật trong video, những phương pháp này có thể được sử dụng như các cải tiến tương lai cho hệ thống được đề xuất.
Từ khóa
#giám sát video #phát hiện đối tượng #nhận diện khuôn mặt #học sâu #hệ thống thông minhTài liệu tham khảo
Abadi M, Agarwal A, Barham P, Brevdo E, Chen Z, Citro C, Corrado GS, Davis A, Dean J, Devin M, Ghemawat S, Goodfellow IJ, Harp A, Irving G, Isard M, Jia Y, Józefowicz R, Kaiser L, Kudlur M, Levenberg J, Mané D, Monga R, Moore S, Murray DG, Olah C, Schuster M, Shlens J, Steiner B, Sutskever I, Talwar K, Tucker PA, Vanhoucke V, Vasudevan V, Viégas FB, Vinyals O, Warden P, Wattenberg M, Wicke M, Yu Y, Zheng X (2016) Tensorflow: Large-scale machine learning on heterogeneous distributed systems. arXiv:1603.04467
Amos B, Ludwiczuk B, Satyanarayanan M (2016) Openface: A general-purpose face recognition library with mobile applications. Tech. rep., CMU-CS-16-118 CMU School of Computer Science
Borji A, Cheng MM, Hou Q, Jiang H, Li J (2019) Salient object detection: a survey. In: Computational visual media, vol 5, pp 117—-150
Cao Q, Shen L, Xie W, Parkhi OM, Zisserman A (2018) VGGFAce2: A dataset for recognising faces across pose and age. In: International conference on automatic face and gesture recognition
Dai J, Li Y, He K, Sun J (2016) R-FCN: Object detection via region-based fully convolutional networks. In: Lee DD, Sugiyama M, Luxburg UV, Guyon I, Garnett R (eds) Advances in neural information processing systems 29. Curran Associates, Inc., pp 379–387. http://papers.nips.cc/paper/6465-r-fcn-object-detection-via-region-based-fully-convolutional-networks.pdf
Elkin M (2020) Crime in England and wales: year ending September 2019. Office for National Statistics, Newport UK
Fan DP, Wang W, Cheng MM, Shen J (2019) Shifting more attention to video salient object detection. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (CVPR)
Farrington DP, Gill M, Waples SJ, Argomaniz J (2007) The effects of closed-circuit television on crime: meta-analysis of an English national quasi-experimental multi-site evaluation. J Exp Criminol 3:21–38. https://doi.org/10.1007/s11292-007-9024-2
Girshick R (2015) Fast r-CNN. In: The IEEE international conference on computer vision (ICCV)
Girshick R, Donahue J, Darrell T, Malik J (2014) Rich feature hierarchies for accurate object detection and semantic segmentation. In: The IEEE conference on computer vision and pattern recognition (CVPR)
Gool LV, Williams CKI, John Winn AZ (2010) The pascal visual object classes (VOC) challenge. Int J Comput Vis 88:303–338
He K, Zhang X, Ren S, Sun J (2015) Spatial pyramid pooling in deep convolutional networks for visual recognition. IEEE Trans Pattern Anal Mach Intel 37(9):1904–1916
He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: The IEEE conference on computer vision and pattern recognition (CVPR)
Howard AG, Zhu M, Chen B, Kalenichenko D, Wang W, Weyand T, Andreetto M, Adam H (2017) MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. arXiv:1704.04861
Huang GB, Ramesh M, Berg T, Learned-Miller E (2007) Labeled faces in the wild: a database for studying face recognition in unconstrained environments. Tech. Rep. 07–49, university of massachusetts amherst
Huang J, Rathod V, Sun C, Zhu M, Korattikara A, Fathi A, Fischer I, Wojna Z, Song Y, Guadarrama S, Murphy K (2017) Speed/Accuracy Trade-Offs for modern convolutional object detectors. In: The IEEE conference on computer vision and pattern recognition (CVPR)
Ioffe S, Szegedy C (2015) Batch normalization: accelerating deep network training by reducing internal covariate shift. arXiv:http://arxiv.org/abs1502.03167
Jia Y, Shelhamer E, Donahue J, Karayev S, Long J, Girshick R, Guadarrama S, Darrell T (2014) Caffe: Convolutional Architecture for Fast Feature Embedding. arXiv:1408.5093
Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Fei-Fei L (2014) Large-Scale Video classification with convolutional neural networks. In: 2014 IEEE Conference on computer vision and pattern recognition, pp 1725–1732
Kuznetsova A, Rom H, Alldrin N, Uijlings J, Krasin I, Pont-Tuset J, Kamali S, Popov S, Malloci M, Duerig T, Ferrari V (2018) The Open Images Dataset V4:, Unified image classification, object detection, and visual relationship detection at scale. arXiv:1811.00982
LeCun Y, Bengio Y, Hinton G (2015) Deep learning. In: Nature, vol 521, pp 436–444
Lin TY, Maire M, Belongie S, Bourdev L, Girshick R, Hays J, Perona P, Ramanan D, Zitnick CL, Dollá P. (2014) Microsoft COCO: common objects in context. In: Fleet D, Pajdla T, Schiele B, Tuytelaars T (eds) Computer vision – ECCV 2014. Springer International Publishing, Cham, pp 740–755
Liu L, Ouyang W, Wang X, Chen J, Liu X, Pietikäinen M (2020) Deep learning for generic object detection: a survey. In: International journal of computer vision, vol 128, pp 261–318
Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu CY, Berg AC (2016) SSD: Single shot MultiBox detector. In: Leibe B, Matas J, Sebe N, Welling M (eds) Computer vision – ECCV 2016. Springer International Publishing, Cham, pp 21–37
Lomonaco V CORe50. https://vlomonaco.github.io/core50/#differences (2019). Accessed: 15-09-2020
Lomonaco V, Maltoni D (2017) CORE50: A new dataset and benchmark for continuous object recognition. In: Levine S, Vanhoucke V, Goldberg K (eds) Proceedings of machine learning research, vol 78, pp 17–26
Lomonaco V, Maltoni D, Pellegrini L (2019) Fine-Grained Continual Learning. Computing Research Repository . arXiv:1907.03799
McCabe DL, Butterfield KD, Treviño LK (2017) Cheating in college: why students do it and what educators can do about it. The Johns Hopkins University Press, Baltimore
Meinhardt PBT, Leal-Taixe L (2019) Tracking without bells and whistles. In: Proceedings of the IEEE/CVF international conference on computer vision (ICCV)
Parkhi OM, Vedaldi A, Zisserman A (2015) Deep face recognition. In: Xie X, Jones MW, Tam GKL (eds) Proceedings of the British machine vision conference (BMVC). BMVA Press, pp 41.1–41.12. https://doi.org/10.5244/C.29.41
Redmon J, Divvala S, Girshick R, Farhadi A (2016) You only look once: unified, Real-Time object detection. In: The IEEE conference on computer vision and pattern recognition (CVPR)
Ren S, He K, Girshick R, Sun J (2015) Faster R-CNN: Towards real-time object detection with region proposal networks. In: Cortes C, Lawrence ND, Lee DD, Sugiyama M, Garnett R (eds) Advances in neural information processing systems 28. Curran Associates, Inc., pp 91–99. http://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks.pdf
Sandberg D Face Recognition using Tensorflow. https://github.com/davidsandberg/facenet (2018). Accessed: 12-04-2020
Schroff F, Dmitry Kalenichenko JP (2015) Facenet: A Unified Embedding for Face Recognition and Clustering. In: The IEEE conference on computer vision and pattern recognition (CVPR)
Simonyan K, Zisserman A (2015) Very deep convolutional networks for Large-Scale image recognition. In: International conference on learning representations (ICLR)
Sun Y, Xiaogang Wang XT (2015) Deeply learned face representations are sparse, selective, and robust. In: The IEEE conference on computer vision and pattern recognition (CVPR)
Szegedy C, Ioffe S, Vanhoucke V, Alemi A (2017) Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning. https://www.aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14806/14311
Taigman Y, Yang M, Ranzato M, Wolf L (2014) Deepface: Closing the gap to human-level performance in face verification. In: The IEEE conference on computer vision and pattern recognition (CVPR)
Tran D, Bourdev L, Fergus R, Torresani L, Paluri M (2015) Learning spatiotemporal features with 3D convolutional networks. In: 2015 IEEE International conference on computer vision (ICCV), pp 4489–4497
Uijlings JRR, van de Sande KEA, Gevers T, Smeulders AWM (2013) Selective search for object recognition. Int J Comput Vis 104:154–171
Wang S, Zhou Y, Yan J, Deng Z (2018) Fully Motion-Aware network for video object detection. In: Proceedings of the European conference on computer vision (ECCV)
Wang W, Zhao S, Shen J, Hoi SCH, Borji A (2019) Salient object detection with pyramid attention and salient edges. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (CVPR)
Wolf L, Hassner T, Maoz I (2011) Face recognition in unconstrained videos with matched background similarity. In: The IEEE conference on computer vision and pattern recognition (CVPR)
Zhang K, Zhang Z, Li Z, Qiao Y (2016) Joint face detection and alignment using multitask cascaded convolutional networks. IEEE Signal Process Lett 23(10):1499–1503. https://doi.org/10.1109/LSP.2016.2603342
Zhao JX, Liu JJ, Fan DP, Cao Y, Yang JF, Cheng MM (2019) EGNEt: Edge guidance network for salient object detection. In: Proceedings of the IEEE/CVF international conference on computer vision (ICCV)
Zhu X, Dai J, Yuan L, Wei Y (2018) Towards high performance video object detection. In: Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR)