Phân loại cảm xúc trong hội thoại nói giữa người và máy

Chul Min Lee1, S.S. Narayanan1, R. Pieraccini2
1Department of Electrical Engineering and IMSC, University of Southern California, Los Angeles, CA, USA
2Speechworks International, Inc., NY, USA

Tóm tắt

Bài báo này báo cáo về sự so sánh giữa các bộ đặc trưng âm thanh khác nhau và các thuật toán phân loại để phân loại các phát ngôn dựa trên trạng thái cảm xúc của người nói. Bộ dữ liệu được sử dụng cho phân tích đến từ một tập hợp hội thoại giữa người và máy thu được từ một ứng dụng thương mại. Nhận diện cảm xúc được đặt ra như một vấn đề nhận diện mẫu. Chúng tôi đã sử dụng ba kỹ thuật khác nhau - bộ phân loại phân biệt tuyến tính (LDC), bộ phân loại hàng xóm gần nhất (k-NN), và bộ phân loại máy vector hỗ trợ (SVC) - để phân loại các phát ngôn thành 2 lớp cảm xúc: tiêu cực và không tiêu cực. Trong nghiên cứu này, hai bộ đặc trưng đã được sử dụng; bộ đặc trưng cơ sở thu được từ thống kê mức độ phát ngôn của tần số và năng lượng của bài phát biểu, và bộ đặc trưng được phân tích bằng phân tích thành phần chính (PCA). PCA cho thấy hiệu suất tương đương với các bộ đặc trưng cơ sở. Tổng thể, LDC đạt được hiệu suất tốt nhất với tỷ lệ lỗi là 27,54% trên dữ liệu nữ và 25,46% trên nam giới với bộ đặc trưng cơ sở. Tuy nhiên, SVC cho thấy hiệu suất tốt hơn trong vấn đề khan hiếm dữ liệu.

Từ khóa

#Hệ thống người-máy #Phân tích thành phần chính #Bộ bù VAr tĩnh #Phân tích giọng nói #Thuật toán phân loại #Loa #Nhận diện cảm xúc #Nhận diện mẫu #Phân tích phân biệt tuyến tính #Máy vector hỗ trợ

Tài liệu tham khảo

10.1007/978-1-4757-2440-0 10.1023/A:1009715923555 arunachalam, 2001, Politeness and frustration language in child-machine interactions, Proc EUROSPEECH, 2675 duda, 2001, Pattern Classification 10.1017/CBO9780511571299 10.1109/ASRU.2001.1034632 10.1109/79.911197 mcgilloway, 2000, Approaching automatic recognition of emotion from voice: A rough benchmark, ISCA Workshop on Speech and Emotion 10.1109/ICSLP.1996.608022 batliner, 0, Desperately seeking emotions: Actors, wizards, and human beings, Proceedings of the ISCA Workshop on Speech and Emotion petrushin, 1999, Emotion in speech: Recognition and application to call centers, Artif Neu Net Engr (ANNIE), 7 scherer, 2000, A Cross-Cultural Investigation of Emotion Inferences from Voice and Speech Implications for Speech Technology 0 10.1109/AFGR.1996.557292