Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Phân biệt tiếng ồn nền môi trường trong sự hiện diện của tín hiệu nói bằng cách sử dụng các đặc trưng dựa trên thống kê của các cặp mẫu
Tóm tắt
Một phương pháp để phân biệt các loại tiếng ồn nền khác nhau bằng cách sử dụng các đặc trưng mới dựa trên mẫu tín hiệu đã được trình bày ở đây. Hai mẫu liên tiếp có biên độ khác nhau của tín hiệu rời rạc được gọi là cặp mẫu và 14 loại cặp mẫu đã được xem xét ở đây như là những đặc trưng cơ bản. Kết quả từ công việc mô phỏng cho thấy số lượng một số cặp mẫu như vậy cũng như số lượng một vài tổ hợp của hai, ba và bốn cặp mẫu này là hữu ích để phát hiện và phân biệt các tiếng ồn âm thanh khác nhau được trộn lẫn với tín hiệu nói. Dựa trên kết quả mô phỏng, hiệu suất của các đặc trưng được đề xuất đã được chứng minh là tốt hơn các đặc trưng phổ khác như Hệ số Cepstral Tần số Mel (MFCC), Trung tâm phổ, Biến thiên phổ và Giới hạn phổ về khả năng phân biệt, tính đơn giản của quá trình trích xuất và độ phụ thuộc thấp hơn vào các phát ngôn nói bị trộn lẫn với tiếng ồn. Các đặc trưng dựa trên cặp mẫu này có lợi thế không yêu cầu tách khung và loại bỏ khoảng lặng. Khả năng phân biệt của chúng được thể hiện qua tỷ lệ F của Fisher như là chỉ số hiệu suất. Máy Vector Hỗn hợp đa lớp (SVM) được sử dụng như một bộ phân loại.
Từ khóa
#tiếng ồn nền #mẫu #phương pháp phân biệt #đặc trưng #máy vector hỗn hợpTài liệu tham khảo
J. Pineau, M. Montemerlo, N. Roy, M. Pollack, and S. Thrun, Robot. Autonom. Syst. 42, 271 (2003).
S. Thrun, M. Bennewitz, W. Burgard, A. B. Cremers, D. Fox, F. Dellaert, D. Haehnel, N. Roy, C. Rosenberg, J. Schulte, and D. Schulz, in Proc. IEEE Int. Conf. Robot. Autom. (ICRA), 1999.
H. A. Yanco, Lecture Notes in Artificial Intelligence: Assistive Technology and Artificial Intelligence (SpringerVerlag, New York, 1998).
A. Fod, A. Howard, and M. J. Mataric, in Proc. Int. Conf. Robot. Autom. (ICRA), 2002.
S. Chu, S. Narayanan, C.-C. J. Kuo, and M. J. Mataric, in Proc. IEEE Int. Conf. Multimedia Expo (ICME), Toronto, Canada, 2006.
J. Huang, in Proc. IEEE Int. Conf. Multimedia Expo (ICME), 2002, p. 253.
A. Waibel, H. Steusloff, and R. Stiefelhagen, in Proc. Int. Workshop on Image Analysis for Multimedia Interactive Services, WIAMIS, 2004.
D. P. W. Ellis and K. Lee, in Proc. Workshop on Continuous Archival and Retrieval of Personal Experiences, CARPE, 2004.
J. Mantyjarvi, P. Huuskonen, and J. Himberg, J. IEEE Trans. Wireless Commun., 9, 39 (2002).
T. Zhang and C.-C. Jay Kuo, J. IEEE Trans. Audio, Speech Lang. Proc. 9, 441 (2001).
D. P. W. Ellis, PhD Dissertation (Cambridge, MA, 1996).
A. Eronen, V. Peltonen, J. Tuomi, A. Klapuri, S. Fagerlund, T. Sorsa, G. Lorho, and J. Huopaniemi, J. IEEE Trans. Audio, Speech Language Proc. 14, 321 (2006).
R. G. Malkin and A. Waibel, in Proc. Int. Conf. Audio, Speech and Language (ICASSP), 2005, p. 509.
V. Peltonen, MS Thesis, (Tampere, Finland, 2001).
J.-J. Aucouturier, B. Defreville, and F. Pachet, J. Acoust. Soc. Am. 122, 881 (2007).
R. Cai, L. Lu, A. Hanjalic, and H. Zhang, J. IEEE Trans. Audio, Speech and Language Proc. 14, 1026 (2006).
A. Eronen and A. Klapuri, in Proc. IEEE Int. Conf. Acoustics, Speech and Signal Proc. (ICASSP), Istanbull, Turkey, 2000, p. 753.
Härmä and Aki, J. Am. Electr. Soc. 59, 707 (2011).
Härmä and Aki, in Proc. 45th Int. Conf: Appl. Time Freq. Proc. Audio, 2012.
R. C. Maher and J. Studniarz, in Proc. 46th Int. Conf: Audio Forensics, 2012.
A. Gordienko, N. V. Krasnopistsev, V. N. Nekrasov, and V. N. Toropov, Acoust. Phys. 57, 168 (2011).
V. M. Efimtsov and L. A. Lazarev, Acoust. Phys. 58, 404 (2012).
A. S. Ivanenkov, A. A. Rodionov, and V. I. Turchin, Acoust. Phys. 59, 179 (2013).
V. N. Vapnik, The Nature of Statistical Learning Theory (Springer-Verlag, New York, 1995).
Shigeo Abe, Support Vector Machines for Pattern Classification (Springer-Verlag, London, 2005).
J. Wolf, J. Acoust. Soc. Am. 51, 2044 (1971).
G. Saha, S. Chakroborty, and S. Senapati, in Proc. IEEE Ann. Conf. Indicon, 2004, (2005), p. 70.
www.utdallas.edu/~loizou/speech/noizeus/