Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Nhận diện cảm xúc của trẻ em từ lời nói tự phát bằng cách sử dụng tập hợp các đặc trưng âm thanh và ngôn ngữ rút gọn
Tóm tắt
Mục tiêu của bài báo này là phân loại trạng thái cảm xúc của trẻ em trong một kịch bản nhận diện cảm xúc không điển hình trong đời sống thực. Khung làm việc được áp dụng giống như đề xuất trong Thử thách Cảm xúc Interspeech 2009. Chúng tôi đã sử dụng một tập hợp lớn các đặc trưng âm thanh và năm tham số ngôn ngữ dựa trên khái niệm độ nổi bật cảm xúc. Các đặc trưng được trích xuất từ các bản ghi lời nói tự phát của Tập hợp FAU Aibo và các bản sao của chúng. Chúng tôi đã sử dụng một phương pháp bọc để giảm tập hợp các đặc trưng âm thanh từ 384 xuống còn 28 yếu tố và kết hợp cấp độ đặc trưng để gộp chúng với tập hợp các tham số ngôn ngữ. Chúng tôi nghiên cứu ba phương pháp phân loại: bộ phân loại Naïve-Bayes, máy vector hỗ trợ và cây mô hình logistic. Kết quả cho thấy rằng các đặc trưng ngôn ngữ cải thiện hiệu suất của các bộ phân loại chỉ sử dụng tập dữ liệu âm thanh. Thêm vào đó, việc kết hợp các đặc trưng ngôn ngữ với tập hợp âm thanh đã giảm là hiệu quả hơn so với việc làm việc với toàn bộ tập dữ liệu. Hiệu suất tốt nhất của bộ phân loại đạt được với cây mô hình logistic và tập hợp các đặc trưng âm thanh và ngôn ngữ đã giảm, điều này cải thiện hiệu suất đạt được với toàn bộ tập dữ liệu thêm 4,15% tuyệt đối (10,14% tương đối) và cải thiện hiệu suất của bộ phân loại Naïve-Bayes thêm 9,91 % tuyệt đối (28,18 % tương đối). Trong các điều kiện tương tự được đề xuất trong Thử thách Cảm xúc, sơ đồ đơn giản này cải thiện một cấu trúc phức tạp hơn nhiều liên quan đến bảy bộ phân loại và một số lượng lớn các đặc trưng.
Từ khóa
#Nhận diện cảm xúc #trẻ em #lời nói tự phát #đặc trưng âm thanh #đặc trưng ngôn ngữ #phân loạiTài liệu tham khảo
Picard RW, Vyzas E, Healey J. Toward machine emotional intelligence: analysis of affective physiological state. IEEE Trans Pattern Anal Mach Intell. 2001;23(10):1175–1191.
Zeng Z, Pantic M, Roisman GI, Huang TS. A survey of affect recognition methods: audio, visual, and spontaneous expressions. IEEE Trans Pattern Anal Mach Intell. 2009;31(1):39–58.
Slaney M, McRoberts G. Baby Ears: a recognition system for affective vocalizations. 1998 IEEE international conference on acoustics speech and signal processing. 1998;p. 985–988.
Chetouani M, Mahdhaoui A, Ringeval F. Time-scale feature extractions for emotional speech characterization. Cognit Comput. 2009;1(2):194–201.
Wöllmer M, Eyben F, Schuller B, Douglas-Cowie E, Cowie R. Data-driven clustering in emotional space for affect recognition using discriminatively trained LSTM networks. In: 10th annual conference of the international speech communication association; 2009. p. 1595–1598.
Schuller B, Steidl S, Batliner A. The interspeech 2009 emotion challenge. In: 10th annual conference of the international speech communication association. Brighton, UK; 2009. p. 312–315.
Kostoulas T, Ganchev T, Lazaridis A, Fakotakis N. Enhancing emotion recognition from speech through feature selection. In: Sojka P, Hork A, Kopecek I, Pala K, editors. Text, speech and dialogue vol 6231 of LNCS. Heidelberg: Springer; 2010. p. 338–344.
Steidl S. Automatic classification of emotion-related user states in spontaneous children’s speech. Berlin: Logos Verlag; 2009.
Eyben F, Wöllmer M, Schuller B. OpenEAR—introducing the Munich open-source emotion and affect recognition toolkit. In: 4th international HUMAINE association conference on affective computing and intelligent interaction 2009. Amsterdam; 2009. p. 576–581.
Lee CM, Narayanan SS. Towards detecting emotions in spoken dialogs. IEEE Trans Audio Speech Lang Processing. 2005;13:293–303.
Yildirim S, Narayanan S, Potamianos A. Detecting emotional state of a child in a conversational computer game. Comput Speech Lang. 2011;25:29–44.
Witten IH, Frank E. Data mining: practical machine learning tools and techniques. 2nd ed. San Francisco, CA: Morgan Kaufmann; 2005.
Kim YS, Street N, Menczer F. Feature selection in data mining. In: Wang J, editor. Data mining opportunities and challenges. Hershey, PA: Idea Group Publishing; 2003. p. 80–105.
Snoek CGM, Worring M, Smeulders AWM. Early versus late fusion in semantic video analysis. In: 13th annual ACM international conference on multimedia. 2005;p. 399–402.
Guyon I, Elisseeff A. An introduction to variable and feature selection. J Mach Learn Res. 2003;3:1157–1182.
Planet S, Iriondo I, Socoró JC, Monzo C, Adell J. GTM-URL Contribution to the interspeech 2009 Emotion Challenge. In: 10th annual conference of the international speech communication association. Brighton, UK; 2009. p. 316–319.
Fayyad UM, Irani KB. Multi-interval discretization of continuous-valued attributes for classification learning. In: 13th international joint conference on artificial intelligence; 1993. p. 1022–1029.
Platt JC. Fast training of support vector machines using sequential minimal optimization. In: Schoelkopf B, Burges C, Smola A, editors. Advances in Kernel Methods-support vector learning. Cambridge, MA: MIT Press; 1998. p. 41–65.
Hastie T, Tibshirani R. Classification by pairwise coupling. Ann Stat. 1998;26(2):451–471.
Landwehr N, Hall M, Frank E. Logistic model trees. Mach Learn. 2005;59(1–2):161–205.
Schuller B, Batliner A, Steidl S, Seppi D. Recognising realistic emotions and affect in speech: state of the art and lessons learnt from the first challenge. Speech Communication. (2011 in press Corrected Proof).
Rish I. An empirical study of the Naïve-Bayes classifier. IJCAI 2001 Workshop on Empir Methods Artif Intell. 2001;3(22):41–46.
Kockmann M, Burget L, Černocký J. Brno University of Technology System for Interspeech 2009 Emotion Challenge. In: 10th annual conference of the international speech communication association. Brighton, UK; 2009. p. 348–351.
Schuller B, Batliner A, Steidl S, Seppi D. Emotion recognition from speech: putting ASR in the loop. In: Proceedings of the 2009 IEEE international conference on acoustics, speech and signal processing. ICASSP ’09. Washington, DC: IEEE Computer Society; 2009. p. 4585–4588.
Lu Y, Cohen I, Zhou XS, Tian Q. Feature selection using principal feature analysis. In: Proceedings of the 15th international conference on Multimedia. MULTIMEDIA ’07. New York, NY: ACM; 2007. p. 301–304.