Nhận diện nhiều người hiệu quả trong các chuỗi video ngẫu nhiên sử dụng mạng nơ-ron tích chập

Multimedia Tools and Applications - Tập 79 - Trang 11125-11141 - 2019
Niraimathi Puhalanthi1, Daw-Tung Lin1
1Department of Computer Science and Information Engineering, National Taipei University, New Taipei City, Taiwan

Tóm tắt

Nhận diện khuôn mặt hiệu quả và hiệu suất cao thông qua mạng lưới máy quay giám sát rộng rãi là một trong những mục tiêu thách thức nhất của thị giác máy tính tiên tiến. Nghiên cứu này phát triển một hệ thống nhận diện người (PRS) theo thời gian thực để xác định hiệu quả nhiều người trong các chuỗi video. Chúng tôi tập trung vào việc nhận diện khoảng 9000 người nổi tiếng thông qua xử lý thông minh, đào tạo và triển khai một mạng nơ-ron tích chập sâu (CNN). Phương pháp PRS được đề xuất bao gồm ba bước chính. Trong bước đầu tiên, nhiều khuôn mặt xuất hiện trong một khung hình nhất định cũng như các điểm đặc trưng liên quan đến chúng được phát hiện. Điều này cần chính xác vì độ chính xác của bước này quyết định độ chính xác của toàn bộ hệ thống PRS. Trong bước thứ hai, các vùng khuôn mặt được trích xuất sẽ được căn chỉnh thông qua biến hình affine, dựa trên vị trí điểm đặc trưng đã xác định tương ứng của chúng. Quá trình căn chỉnh nhằm đảm bảo nhận diện đúng một người, vì một loạt khuôn mặt có sự tương đồng nội tại giữa các lớp. Cuối cùng, trong bước thứ ba, một mạng CNN VGG-19 được đào tạo để phân loại các hình ảnh khuôn mặt đã căn chỉnh cho việc nhận diện người. Trong giai đoạn đào tạo của hệ thống PRS, chúng tôi đã sử dụng hình ảnh từ cơ sở dữ liệu CASIA WebFace, chứa gần 9000 lớp, và căn chỉnh chúng dựa trên các điểm đặc trưng khuôn mặt tương ứng. Sau đó, chúng tôi sử dụng các hình ảnh đã căn chỉnh để đào tạo một bộ phân loại CNN VGG-19. Để xác minh, bộ phân loại đã được đào tạo đã được thử nghiệm với cơ sở dữ liệu Labelled Faces in the Wild (LFW) bằng cách trích xuất các đặc trưng cho các hình ảnh LFW sử dụng VGG đã được đào tạo. Cụ thể, các đặc trưng LFW được trích xuất bởi VGG đã được sử dụng để đào tạo các bộ phân loại vector hỗ trợ, và độ chính xác phân loại thu được khoảng 96% rất gần với tiêu chuẩn hiện có của cơ sở dữ liệu LFW. Trong giai đoạn thử nghiệm, các khung hình chéo của video đầu vào được trích xuất và khuôn mặt đã được xác định (sau khi căn chỉnh) được sử dụng làm đầu vào cho VGG đã được đào tạo để nhận diện con người trong một khung hình nhất định. Khi thử nghiệm trên các mẫu ngẫu nhiên của hình ảnh video, PRS được đề xuất cung cấp hiệu suất nhận diện mạnh mẽ cho hầu hết các vùng khuôn mặt có định hướng và kích thước hợp lý. Hơn nữa, thời gian nhận diện trung bình mỗi người khoảng 370 mili giây. PRS dựa trên học sâu được đề xuất là hệ thống đầu tiên trong loại của nó thể hiện hiệu suất thời gian thực cho nhận diện người với độ chính xác đáng kể, mà không cần bất kỳ kiến thức trước về những người liên quan trong video.

Từ khóa

#nhận diện khuôn mặt #mạng nơ-ron tích chập #người nổi tiếng #xử lý video #phát hiện khuôn mặt

Tài liệu tham khảo

Ahonen T, Hadid A, Pietikäinen M (2004) Face recognition with local binary patterns. In: Proceedings of ECCV, pp 469–481 Amos B, Ludwiczuk B, Satyanarayanan M (2016) Openface: a general-purpose face recognition library with mobile applications. Tech. rep., CMU-CS-16-118, CMU School of Computer Science Berg T, Belhumeur PN (2012) Tom-vs-pete classifiers and identitypreserving alignment for face verification. In: Proceedings of BMVC, vol 2, p 7 Bloice MD, Stocker C, Holzinger A (2017) Augmentor: an image augmentation library for machine learning. arXiv preprint arXiv:1708.04680 Cao X, Wipf D, Wen F, Duan G, Sun J (2013) A practical transfer learning algorithm for face verification. In: Proceedings of ICCV, pp 3208–3215 Chen D, Cao X, Wang L, Wen F, Sun J (2012) Bayesian face revisited: a joint formulation. In: Proceedings of ECCV, pp 566–579 Chen D, Cao X, Wen F, Sun J (2013) Blessing of dimensionality: high-dimensional feature and its efficient compression for face verification. In: Proceedings CVPR, pp 3025–3032 Cui J, Liu Y, Xu Y, Zhao H, Zha H (2013) Tracking generic human motion via fusion of low-and high-dimensional approaches. IEEE Trans Syst Man Cybern Syst Hum 43(4):996–1002 Dalal N, Triggs B (2005) Histograms of oriented gradients for human detection. In: Proceeding of CVPR, vol 1, pp 886–893 Ding C, Tao D (2018) Trunk-branch ensemble convolutional neural networks for video-based face recognition. IEEE Trans Pattern Anal Mach Intell 40(4):1002–1014 Felzenszwalb P, Girshick R, McAllester D, Ramanan D (2010) Object detection with discriminatively trained part based models. IEEE Trans Pattern Anal Mach Intell 32(9):1627–1645 Fontaine X, Achanta R, Süsstrunk S (2017) Face recognition in real-world images. In: 2017 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, pp 1482–1486 Gonzalez C, Jose M (2010) Detecting skin in face recognition systems: a color spaces study. Digital Signal Process 20(3):806–823 Gonzalez-Sosa E, Fierrez J, Vera-Rodriguez R, Alonso-Fernandez F (2018) Facial soft biometrics for recognition in the wild: recent works, annotation, and cots evaluation. IEEE Trans Inf Forensics Secur 13(8):2001–2014 Hauberg S, Freifeld O, Boesen A, Larsen L, Fisher JW, Hansen LK (2016) Dreaming more data: class-dependent distributions over dieomorphisms for learned data augmentation. In: Proceedings of 19th international conference on artificial intelligence and statistics Hu L, Kan M, Shan S, Song X, Chen X (2017) Ldf-net: learning a displacement field network for face recognition across pose. In: 2017 12th IEEE international conference on automatic face & gesture recognition (FG 2017). IEEE, pp 9–16 Huang GB, Mattar M, Lee H, Learned-Miller E (2012) Learning to align from scratch. In: Advances in neural information processing systems, pp 764–772 Jia Y, Shelhamer E, Donahue J, Karayev S, Long J, Girshick R, Guadarrama S, Darrell T (2014) Caffe: convolutional architecture for fast feature embedding. In: ACM international conference on multimedia, pp 675–678 Kazemi V, Sullivan J (2014) One millisecond face alignment with an ensemble of regression trees. In: Proceedings CVPR, pp 1867–1874 Keren D, Osadchy M, Gotsman C (2001) Antifaces: a novel fast method for image detection. IEEE Trans Pattern Anal Mach Intell 23(7):747–761 LeCun Y, Boser B, Denker JS, Henderson D, Howard RE, Hubbard W, Jackel LD (1989) Backpropagation applied to handwritten zip code recognition. Neural Comput 1(4):747–761 LeCun Y, Boser B, Denker JS, Howard RE, Habbard W, Jackel LD, Henderson D (1990) Handwritten digit recognition with a back-propagation network. In: Advances in neural information processing systems, pp 396–404 Lee KC, Ho J, Yang M, Kriegman D (2003) Video-based face recognition using probabilistic appearance manifolds. In: Proceedings of CVPR, vol 1 Li Y, Gong S, Liddell H (2000) Support vector regression and classification based multi-view face detec- tion and recognition. In: Proceedings of international conference on automatic face and gesture recognition Liu Y, Nie L, Han L, Zhang L, Rosenblum DS (2015) Action2activity: recognizing complex activities from sensor data. In: IJCAI, pp 1617–1623 Liu L, Cheng L, Liu Y, Jia Y, Rosenblum DS (2016) Recognizing complex activities by a probabilistic interval-based model. In: AAAI, vol 30, pp 1266–1272 Liu Y, Nie L, Liu L, Rosenblum DS (2016) From action to activity: sensor-based activity recognition. Neurocomputing 181:108–115 Lu Y, Wei Y, Liu L, Zhong J, Sun L, Liu Y (2017) Towards unsupervised physical activity recognition using smartphone accelerometers. Multimed Tools Appl 76(8):10,701–10,719 Masi I, Chang FJ, Choi J, Harel S, Kim J, Kim K, Leksut J, Rawls S, Wu Y, Hassner T et al (2018) Learning pose-aware models for pose-invariant face recognition in the wild. IEEE Trans Pattern Anal Mach Intell Omkar P, Vedaldi A, Zisserman A (2015) Deep face recognition. In: Proceedings of British machine vision conference, vol 1, p 6 Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, Huang Z, Karpathy A, Khosla A, Bernstein M, Berg AC, Fei-Fei L (2015) ImageNet large scale visual recognition challenge. Int J Comput Vis (IJCV) 115(3):211–252 Schroff F, Kalenichenko D, Philbin J (2015) Facenet: a unified embedding for face recognition and clustering. In: Proceedings of CVPR, pp 815–823 Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. CoRR arXiv:1409.1556 Sun Y, Wang X, Tang X (2014) Deep learning face representation from predicting 10,000 classes. In: Proceedings of CVPR, pp 1891–1898 Sund T, Moystad A (2006) Sliding window adaptive histogram equalization of intra-oral radiographs: effect on diagnostic quality. J Dentomaxillofac Radiol 35 (3):133–138 Tadas B, Robinson P, Morency LP (2013) Constrained local neural fields for robust facial landmark detection in the wild. In: Proceedings IEEE international conference on computer vision workshops, pp 354–361 Taigman Y, Yang M, Ranzato M, Wolf L (2014) Deepface: closing the gap to human-level performance in face verification. In: Proceedings of CVPR, pp 1701–1708 Tan X, Triggs B (2010) Enhanced local texture feature sets for face recognition under difficult lighting conditions. IEEE Trans Image Process 19(6):1635–1650 Viola P, Jones M (2001) Rapid object detection using a boosted cascade of simple features. In: Proceedings of CVPR Yang J, Ren P, Zhang D, Chen D, Wen F, Li H, Hua G (2017) Neural aggregation network for video face recognition. In: International conference on computer vision and pattern recognition, vol 4, p 7 Yi D, Lei Z, Liao S, Li SZ (2014) Learning face representation from scratch. arXiv:1411.7923 Yin X, Yu X, Sohn K, Liu X, Chandraker M (2017) Towards large-pose face frontalization in the wild. In: Proceedings of the international conference on computer vision, pp 1–10 Zhao J, Cheng Y, Xu Y, Xiong L, Li J, Zhao F, Jayashree K, Pranata S, Shen S, Xing J et al (2018) Towards pose invariant face recognition in the wild. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2207–2216 Zhou E, Cao Z, Yin Q (2015) Naive-deep face recognition: touching the limit of lfw benchmark or not? arXiv preprint arXiv:1501.04690 Zhu X, Ramanan D (2012) Face detection, pose estimation, and landmark localization in the wild. In: Proceedings of CVPR, pp 2879–2886