Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Nhận diện nhiều người hiệu quả trong các chuỗi video ngẫu nhiên sử dụng mạng nơ-ron tích chập
Tóm tắt
Nhận diện khuôn mặt hiệu quả và hiệu suất cao thông qua mạng lưới máy quay giám sát rộng rãi là một trong những mục tiêu thách thức nhất của thị giác máy tính tiên tiến. Nghiên cứu này phát triển một hệ thống nhận diện người (PRS) theo thời gian thực để xác định hiệu quả nhiều người trong các chuỗi video. Chúng tôi tập trung vào việc nhận diện khoảng 9000 người nổi tiếng thông qua xử lý thông minh, đào tạo và triển khai một mạng nơ-ron tích chập sâu (CNN). Phương pháp PRS được đề xuất bao gồm ba bước chính. Trong bước đầu tiên, nhiều khuôn mặt xuất hiện trong một khung hình nhất định cũng như các điểm đặc trưng liên quan đến chúng được phát hiện. Điều này cần chính xác vì độ chính xác của bước này quyết định độ chính xác của toàn bộ hệ thống PRS. Trong bước thứ hai, các vùng khuôn mặt được trích xuất sẽ được căn chỉnh thông qua biến hình affine, dựa trên vị trí điểm đặc trưng đã xác định tương ứng của chúng. Quá trình căn chỉnh nhằm đảm bảo nhận diện đúng một người, vì một loạt khuôn mặt có sự tương đồng nội tại giữa các lớp. Cuối cùng, trong bước thứ ba, một mạng CNN VGG-19 được đào tạo để phân loại các hình ảnh khuôn mặt đã căn chỉnh cho việc nhận diện người. Trong giai đoạn đào tạo của hệ thống PRS, chúng tôi đã sử dụng hình ảnh từ cơ sở dữ liệu CASIA WebFace, chứa gần 9000 lớp, và căn chỉnh chúng dựa trên các điểm đặc trưng khuôn mặt tương ứng. Sau đó, chúng tôi sử dụng các hình ảnh đã căn chỉnh để đào tạo một bộ phân loại CNN VGG-19. Để xác minh, bộ phân loại đã được đào tạo đã được thử nghiệm với cơ sở dữ liệu Labelled Faces in the Wild (LFW) bằng cách trích xuất các đặc trưng cho các hình ảnh LFW sử dụng VGG đã được đào tạo. Cụ thể, các đặc trưng LFW được trích xuất bởi VGG đã được sử dụng để đào tạo các bộ phân loại vector hỗ trợ, và độ chính xác phân loại thu được khoảng 96% rất gần với tiêu chuẩn hiện có của cơ sở dữ liệu LFW. Trong giai đoạn thử nghiệm, các khung hình chéo của video đầu vào được trích xuất và khuôn mặt đã được xác định (sau khi căn chỉnh) được sử dụng làm đầu vào cho VGG đã được đào tạo để nhận diện con người trong một khung hình nhất định. Khi thử nghiệm trên các mẫu ngẫu nhiên của hình ảnh video, PRS được đề xuất cung cấp hiệu suất nhận diện mạnh mẽ cho hầu hết các vùng khuôn mặt có định hướng và kích thước hợp lý. Hơn nữa, thời gian nhận diện trung bình mỗi người khoảng 370 mili giây. PRS dựa trên học sâu được đề xuất là hệ thống đầu tiên trong loại của nó thể hiện hiệu suất thời gian thực cho nhận diện người với độ chính xác đáng kể, mà không cần bất kỳ kiến thức trước về những người liên quan trong video.
Từ khóa
#nhận diện khuôn mặt #mạng nơ-ron tích chập #người nổi tiếng #xử lý video #phát hiện khuôn mặtTài liệu tham khảo
Ahonen T, Hadid A, Pietikäinen M (2004) Face recognition with local binary patterns. In: Proceedings of ECCV, pp 469–481
Amos B, Ludwiczuk B, Satyanarayanan M (2016) Openface: a general-purpose face recognition library with mobile applications. Tech. rep., CMU-CS-16-118, CMU School of Computer Science
Berg T, Belhumeur PN (2012) Tom-vs-pete classifiers and identitypreserving alignment for face verification. In: Proceedings of BMVC, vol 2, p 7
Bloice MD, Stocker C, Holzinger A (2017) Augmentor: an image augmentation library for machine learning. arXiv preprint arXiv:1708.04680
Cao X, Wipf D, Wen F, Duan G, Sun J (2013) A practical transfer learning algorithm for face verification. In: Proceedings of ICCV, pp 3208–3215
Chen D, Cao X, Wang L, Wen F, Sun J (2012) Bayesian face revisited: a joint formulation. In: Proceedings of ECCV, pp 566–579
Chen D, Cao X, Wen F, Sun J (2013) Blessing of dimensionality: high-dimensional feature and its efficient compression for face verification. In: Proceedings CVPR, pp 3025–3032
Cui J, Liu Y, Xu Y, Zhao H, Zha H (2013) Tracking generic human motion via fusion of low-and high-dimensional approaches. IEEE Trans Syst Man Cybern Syst Hum 43(4):996–1002
Dalal N, Triggs B (2005) Histograms of oriented gradients for human detection. In: Proceeding of CVPR, vol 1, pp 886–893
Ding C, Tao D (2018) Trunk-branch ensemble convolutional neural networks for video-based face recognition. IEEE Trans Pattern Anal Mach Intell 40(4):1002–1014
Felzenszwalb P, Girshick R, McAllester D, Ramanan D (2010) Object detection with discriminatively trained part based models. IEEE Trans Pattern Anal Mach Intell 32(9):1627–1645
Fontaine X, Achanta R, Süsstrunk S (2017) Face recognition in real-world images. In: 2017 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, pp 1482–1486
Gonzalez C, Jose M (2010) Detecting skin in face recognition systems: a color spaces study. Digital Signal Process 20(3):806–823
Gonzalez-Sosa E, Fierrez J, Vera-Rodriguez R, Alonso-Fernandez F (2018) Facial soft biometrics for recognition in the wild: recent works, annotation, and cots evaluation. IEEE Trans Inf Forensics Secur 13(8):2001–2014
Hauberg S, Freifeld O, Boesen A, Larsen L, Fisher JW, Hansen LK (2016) Dreaming more data: class-dependent distributions over dieomorphisms for learned data augmentation. In: Proceedings of 19th international conference on artificial intelligence and statistics
Hu L, Kan M, Shan S, Song X, Chen X (2017) Ldf-net: learning a displacement field network for face recognition across pose. In: 2017 12th IEEE international conference on automatic face & gesture recognition (FG 2017). IEEE, pp 9–16
Huang GB, Mattar M, Lee H, Learned-Miller E (2012) Learning to align from scratch. In: Advances in neural information processing systems, pp 764–772
Jia Y, Shelhamer E, Donahue J, Karayev S, Long J, Girshick R, Guadarrama S, Darrell T (2014) Caffe: convolutional architecture for fast feature embedding. In: ACM international conference on multimedia, pp 675–678
Kazemi V, Sullivan J (2014) One millisecond face alignment with an ensemble of regression trees. In: Proceedings CVPR, pp 1867–1874
Keren D, Osadchy M, Gotsman C (2001) Antifaces: a novel fast method for image detection. IEEE Trans Pattern Anal Mach Intell 23(7):747–761
LeCun Y, Boser B, Denker JS, Henderson D, Howard RE, Hubbard W, Jackel LD (1989) Backpropagation applied to handwritten zip code recognition. Neural Comput 1(4):747–761
LeCun Y, Boser B, Denker JS, Howard RE, Habbard W, Jackel LD, Henderson D (1990) Handwritten digit recognition with a back-propagation network. In: Advances in neural information processing systems, pp 396–404
Lee KC, Ho J, Yang M, Kriegman D (2003) Video-based face recognition using probabilistic appearance manifolds. In: Proceedings of CVPR, vol 1
Li Y, Gong S, Liddell H (2000) Support vector regression and classification based multi-view face detec- tion and recognition. In: Proceedings of international conference on automatic face and gesture recognition
Liu Y, Nie L, Han L, Zhang L, Rosenblum DS (2015) Action2activity: recognizing complex activities from sensor data. In: IJCAI, pp 1617–1623
Liu L, Cheng L, Liu Y, Jia Y, Rosenblum DS (2016) Recognizing complex activities by a probabilistic interval-based model. In: AAAI, vol 30, pp 1266–1272
Liu Y, Nie L, Liu L, Rosenblum DS (2016) From action to activity: sensor-based activity recognition. Neurocomputing 181:108–115
Lu Y, Wei Y, Liu L, Zhong J, Sun L, Liu Y (2017) Towards unsupervised physical activity recognition using smartphone accelerometers. Multimed Tools Appl 76(8):10,701–10,719
Masi I, Chang FJ, Choi J, Harel S, Kim J, Kim K, Leksut J, Rawls S, Wu Y, Hassner T et al (2018) Learning pose-aware models for pose-invariant face recognition in the wild. IEEE Trans Pattern Anal Mach Intell
Omkar P, Vedaldi A, Zisserman A (2015) Deep face recognition. In: Proceedings of British machine vision conference, vol 1, p 6
Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, Huang Z, Karpathy A, Khosla A, Bernstein M, Berg AC, Fei-Fei L (2015) ImageNet large scale visual recognition challenge. Int J Comput Vis (IJCV) 115(3):211–252
Schroff F, Kalenichenko D, Philbin J (2015) Facenet: a unified embedding for face recognition and clustering. In: Proceedings of CVPR, pp 815–823
Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. CoRR arXiv:1409.1556
Sun Y, Wang X, Tang X (2014) Deep learning face representation from predicting 10,000 classes. In: Proceedings of CVPR, pp 1891–1898
Sund T, Moystad A (2006) Sliding window adaptive histogram equalization of intra-oral radiographs: effect on diagnostic quality. J Dentomaxillofac Radiol 35 (3):133–138
Tadas B, Robinson P, Morency LP (2013) Constrained local neural fields for robust facial landmark detection in the wild. In: Proceedings IEEE international conference on computer vision workshops, pp 354–361
Taigman Y, Yang M, Ranzato M, Wolf L (2014) Deepface: closing the gap to human-level performance in face verification. In: Proceedings of CVPR, pp 1701–1708
Tan X, Triggs B (2010) Enhanced local texture feature sets for face recognition under difficult lighting conditions. IEEE Trans Image Process 19(6):1635–1650
Viola P, Jones M (2001) Rapid object detection using a boosted cascade of simple features. In: Proceedings of CVPR
Yang J, Ren P, Zhang D, Chen D, Wen F, Li H, Hua G (2017) Neural aggregation network for video face recognition. In: International conference on computer vision and pattern recognition, vol 4, p 7
Yi D, Lei Z, Liao S, Li SZ (2014) Learning face representation from scratch. arXiv:1411.7923
Yin X, Yu X, Sohn K, Liu X, Chandraker M (2017) Towards large-pose face frontalization in the wild. In: Proceedings of the international conference on computer vision, pp 1–10
Zhao J, Cheng Y, Xu Y, Xiong L, Li J, Zhao F, Jayashree K, Pranata S, Shen S, Xing J et al (2018) Towards pose invariant face recognition in the wild. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2207–2216
Zhou E, Cao Z, Yin Q (2015) Naive-deep face recognition: touching the limit of lfw benchmark or not? arXiv preprint arXiv:1501.04690
Zhu X, Ramanan D (2012) Face detection, pose estimation, and landmark localization in the wild. In: Proceedings of CVPR, pp 2879–2886
