Chiết xuất đặc trưng kết cấu và hình học từ các vùng mặt thông tin để nhận diện ngôn ngữ ký hiệu

Journal on Multimodal User Interfaces - Tập 11 - Trang 227-239 - 2017
Sunil Kumar1, M. K. Bhuyan1, Biplab Ketan Chakraborty1
1Department of Electronics and Electrical Engineering, Indian Institute of Technology (IIT) Guwahati, Guwahati, India

Tóm tắt

Nhìn chung, hình thức cử chỉ phổ biến nhất được tạo ra từ các chuyển động của tay và/hoặc cánh tay kết hợp với các biểu hiện khuôn mặt. Trong đó, tay được sử dụng để thực hiện các dấu hiệu thông điệp khác nhau, trong khi các chuyển động của khuôn mặt được sử dụng để phản ánh tâm trạng và cảm xúc của người đó. Trong bài báo này, một số cử chỉ ngôn ngữ ký hiệu chỉ được nhận diện bằng sự trợ giúp của các biểu hiện khuôn mặt đi kèm. Các phương pháp nhận diện ngôn ngữ ký hiệu (SLR) hiện có dựa vào biểu hiện khuôn mặt chỉ sử dụng các đặc trưng hình học của khuôn mặt để nhận diện các cử chỉ ngôn ngữ ký hiệu. Tuy nhiên, hiệu suất của các phương pháp SLR dựa trên đặc trưng hình học phụ thuộc vào độ chính xác của các thuật toán theo dõi và số lượng điểm mốc trên khuôn mặt. Thêm vào đó, các kết cấu của khuôn mặt cung cấp nhiều thông tin hơn so với các đặc trưng hình học của nó. Dựa trên những thực tế này, chúng tôi đề xuất nhận diện cử chỉ ngôn ngữ ký hiệu bằng cách sử dụng các đặc điểm không gian-thời gian của các mẫu kết cấu khuôn mặt. Để làm điều này, một mô hình khuôn mặt mới được đề xuất bằng cách trích xuất các đặc trưng kết cấu chỉ từ các vùng thông tin của khuôn mặt. Mô hình khuôn mặt được đề xuất cũng có thể được sử dụng để trích xuất các đặc trưng hình học của khuôn mặt. Các đặc trưng được trích xuất từ các vùng thông tin của khuôn mặt là có khả năng phân biệt cao, do đó mô hình khuôn mặt được đề xuất có thể theo dõi/mã hóa động lực học khuôn mặt của các biểu hiện đi kèm của một dấu hiệu. Cuối cùng, một trường ngẫu nhiên điều kiện ẩn ba trạng thái được sử dụng để mô hình hóa sự biến đổi kết cấu của các cử chỉ khuôn mặt. Kết quả thí nghiệm trên tập dữ liệu RWTH-BOSTON cho thấy phương pháp đề xuất có thể đạt tỷ lệ nhận diện lên tới 80,06%.

Từ khóa

#ngôn ngữ ký hiệu #cử chỉ #nhận diện #kết cấu khuôn mặt #đặc trưng hình học

Tài liệu tham khảo

Engberg-Pedersen Elisabeth (1993) Space in danish sign language: the semantics and morphosyntax of the use of space in a visual language Fang G, Gao W, Zhao D (2007) Large-vocabulary continuous sign language recognition based on transition-movement models. IEEE Trans Syst Man Cybern Part A Syst Hum 37(1):1–9 Agris UV, Knorr M, and Kraiss KF (2008) The significance of facial features for automatic sign language recognition. In: IEEE International Conference on Automatic Face and Gesture Recognition, pp 1–6 Assan M, Groebel K (1998) A vision-based sign language recognition system using tied-mixture density hmm. In: Gesture and Sign Language in Human-Computer Interaction, Lecture Notes in Computer Science, vol 1371, pp 97–109 Nguyen TD, Ranganath S (2012) Facial expressions in american sign language: tracking and recognition. Pattern Recognit 45(5):1877–1891 Rahulamathavan Y, Phan RC-W, Chambers JA, Parish DJ (2013) Facial expression recognition in the encrypted domain based on local fisher discriminant analysis. IEEE Trans Affect Comput 4(1):83–92 Rudovic O, Pantic M, Patras I (2013) Coupled gaussian processes for pose-invariant facial expression recognition. IEEE Trans Pattern Anal Mach Intell 35(6):1357–1369 Happy SL, Routray A (2015) Automatic facial expression recognition using features of salient facial patches. IEEE Trans Affect Comput 6(1):1–12 Kim M, Pavlovic V (2010) Hidden conditional ordinal random fields for sequence classification. In: Machine Learning and Knowledge Discovery in Databases. Springer, Berlin, pp 51–65 Cootes TF, Taylor CJ, Cooper DH, Graham J (1995) Active shape model-their training and application. Comput Vis. Image Underst 61(1):38–59 Cootes TF, Edwards GJ, Taylor CJ (2001) Active appearance models. IEEE Trans Pattern Anal Mach Intell 23(6):681–685 Ari I, Uyar A, Akarun L (2008) Facial feature tracking and expression recognition for sign language. In: 23rd International Symposium on Computer and Information Sciences, 2008. ISCIS ’08, pp 1–6 Nguyen TD, Ranganath S (2008) Tracking facial features under occlusions and recognizing facial expressions in sign language. In: 8th IEEE International Conference on Automatic Face Gesture Recognition, 2008. FG ’08, pp 1–7 Yang HD, Lee SW (July 2011) Combination of manual and non-manual features for sign language recognition based on conditional random field and active appearance model. In: 2011 International Conference on Machine Learning and Cybernetics (ICMLC), vol 4, pp 1726–1731 Walecki R, Rudovic O, Pavlovic V, Pantic M (2015) Variable-state latent conditional random fields for facial expression recognition and action unit detection. In: 2015 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG), pp 1–8 Izard CE (1977) Human emotions. In: Springer Science and Business Media Zhang L, Tjondronegoro D, Chandran V (2011) Evaluation of texture and geometry for dimensional facial expression recognition. In: 2011 International Conference on Digital Image Computing Techniques and Applications (DICTA), pp 620–626 Rabiner L (1989) A tutorial on hidden markov models and selected applications in speech recognition. Proc IEEE 77(2):257–286 Ong SCW, Ranganath S (2005) Automatic sign language analysis: a survey and the future beyond lexical meaning. IEEE Trans Pattern Anal Mach Intell 27(6):873–891 Brand M, Oliver N, Pentland A (1997) Coupled hidden markov models for complex action recognition. In: 1997 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 1997. Proceedings., pp 994–999 Vogler C, Metaxas D (1999) Parallel hidden markov models for american sign language recognition. In: The Proceedings of the Seventh IEEE International Conference on Computer Vision, 1999, vol 1, pp 116–122 Wang SB, Quattoni A, Morency L, Demirdjian D, Darrell T (2006) Hidden conditional random fields for gesture recognition. In: 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol 2, pp 1521–1527 Ekman P, Friesen W (1978) Manual of the facial action coding system (FACS). Consulting Psychologists Press, Palo Alto Ojala T, Pietikainen M, Harwood D (1996) A comparative study of texture measures with classification based on featured distribution. Pattern Recognit 29(1):51–59 Ojala T, Pietikainen M, Maenpaa T (2002) Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Trans Pattern Anal Mach Intell 24(7):971–987 Huang D, Shan C, Ardabilian M, Wang Y, Chen L (2011) Local binary patterns and its application to facial image analysis: a survey. IEEE Trans Syst Man Cybern Part C Appl Rev 41(6):765–781 Aifanti N, Papachristou C, Delopoulos A (2010) The mug facial expression database. In: 11th International Workshop Image Analysis for Multimedia Interactive Services, pp 1–4 Lyons M, Budynek J, Akamatsu S (1999) Automatic classification of single facial images. IEEE Trans Pattern Anal Mach Intell 21(12):1357–1362 Kanade T, Cohn JF, Tian YingLi (2000) Comprehensive database for facial expression analysis. In: Fourth IEEE International Conference on Automatic Face and Gesture Recognition, 2000. Proceedings, pp 46–53 Belhumeur PN, Jacobs DW, Kriegman DJ, Kumar N (2013) Localizing parts of faces using a consensus of exemplars. IEEE Trans Pattern Anal Mach Intell 35(12):2930–2940 Baker S, Matthews I (2004) Lucas-kanade 20 years on: a unifying framework. Int J Comput Vis 56(3):221–255 Tzimiropoulos G, Pantic M (2013) Optimization problems for fast aam fitting in-the-wild. In: 2013 IEEE International Conference on Computer Vision (ICCV), pp 593–600 Von Agris U, Kraiss KF (2007) Towards a video corpus for signer-independent continuous sign language recognition. Gesture in Human-Computer Interaction and Simulation, Lisbon Zahedi M, Keysers D, Deselaers T, Ney H (2005) Combination of tangent distance and an image distortion model for appearance-based sign language recognition. In: Pattern Recognition. Springer, Berlin, pp 401–408