Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Phương pháp Tích hợp Không gian Phoneme cho Việc Trích xuất Đặc trưng Giọng nói
Tóm tắt
Việc trích xuất đặc trưng giọng nói đã là một trọng tâm chính trong nghiên cứu nhận diện giọng nói mạnh mẽ. Trong công trình này, chúng tôi bàn luận về các phép biến đổi đặc trưng tuyến tính dựa trên dữ liệu được áp dụng cho các vector đặc trưng trong miền ngân hàng bộ lọc mel tần suất logarithmic. Các phép biến đổi này dựa trên phân tích thành phần chính (PCA), phân tích thành phần độc lập (ICA) và phân tích phân biệt tuyến tính (LDA). Hơn nữa, bài báo này giới thiệu một kỹ thuật trích xuất đặc trưng mới, thu thập thông tin tương quan giữa các không gian phoneme và tái tạo không gian đặc trưng để thể hiện thông tin âm vị một cách hiệu quả. Vector đặc trưng giọng nói được đề xuất được tạo ra bằng cách chiếu một vector quan sát lên một không gian phoneme tích hợp (IPS) dựa trên PCA hoặc ICA. Hiệu suất của đặc trưng mới đã được đánh giá cho việc nhận diện giọng nói từ các từ lẻ. Phương pháp đề xuất đã cung cấp độ chính xác nhận diện cao hơn so với các phương pháp truyền thống trong các môi trường sạch và phản xạ.
Từ khóa
#trích xuất đặc trưng giọng nói #PCA #ICA #LDA #không gian phoneme #nhận diện giọng nóiTài liệu tham khảo
Hermansky H, Morgan N: RASTA processing of speech. IEEE Transactions on Speech and Audio Processing 1994,2(4):578-589. 10.1109/89.326616
Kingsbury BED, Morgan N: Recognizing reverberant speech with RASTA-PLP. Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '97), April 1997, Munich, Germany 2: 1259-1262.
Avendano C, Tivrewala S, Hermansky H: Multiresolution channel normalization for ASR in reverberant environments. Proceedings of the 6th European Conference on Speech Communication and Technology (Eurospeech '97), September 1997, Rhodes, Greece 1107-1110.
Gelbart D, Morgan N: Evaluating long-term spectral subtraction for reverberant ASR. Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop (ASRU '01), December 2001, Madonna di Campiglio, Italy 103-106.
Vetter R, Virag N, Renevey P, Vesin J-M: Single channel speech enhancement using principal component analysis and MDL subspace selection. Proceedings of the 6th European Conference on Speech Communication and Technology (Eurospeech '99), September 1999, Budapest, Hungary 2411-2414.
Hermus K, Wambacq P, Van Hamme H: A review of signal subspace speech enhancement and its application to noise robust speech recognition. EURASIP Journal on Advances in Signal Processing 2007, Article ID 45821 15 Pages 2007:.
Takiguchi T, Ariki Y: PCA-based speech enhancement for distorted speech recognition. Journal of Multimedia 2007,2(5):13-18.
Hyvärinen A, Oja E: Independent component analysis: algorithms and applications. Neural Networks 2000,13(4-5):411-430. 10.1016/S0893-6080(00)00026-5
Kwon O-W, Lee T-W: Phoneme recognition using ICA-based feature extraction and transformation. Signal Processing 2004,84(6):1005-1019. 10.1016/j.sigpro.2004.03.004
Kajarekar SS, Yegnanarayana B, Hermansky H: A study of two dimensional linear discriminants for ASR. Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '01), May 2001, Salt Lake, Utah, USA 1: 137-140.
Somervuo P: Experiments with linear and nonlinear feature transformations in HMM based phone recognition. Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '03), April 2003, Hong kong 1: 52-55.
Kinoshita K, Nakatani T, Miyoshi M: Spectral subtraction steered by multi-step forward linear prediction for single channel speech dereverberation. Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '06), May 2006, Toulouse, France 1: 817-820.
Toh AM, Togneri R, Nordholm S: Feature and distribution normalization schemes for statistical mismatch reduction in reverberant speech recognition. Proceedings of the 8th Annual Conference of the International Speech Communication Association (Interspeech '07), August 2007, Antwerp, Belgium 234-237.
Petrick R, Lu X, Unoki M, Akagi M, Hoffmann R: Robust front end processing for speech recognition in reverberant environments: utilization of speech characteristics. Proceedings of the Annual Conference of the International Speech Communication Association (Interspeech '08), September 2008, Brisbane, Australia 658-661.
Gomez R, Even J, Saruwatari H, Shikano K: Distant-talking robust speech recognition using late reflection components of room impulse response. Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '08), March-April 2008, Las Vegas, Nev, USA 4581-4584.
Park H, Takiguchi T, Ariki Y: Integration of phoneme-subspaces using ICA for speech feature extraction and recognition. Proceedings of Hands-Free Speech Communication and Microphone Arrays (HSCMA '08), May 2008, Trento, Italy 148-151.
Nakamura S, Hiyane K, Asano F, Nishimura T, Yamada T: Acoustical sound database in real environments for sound scene understanding and hands-free speech recognition. Proceedings of the 2nd International Conference on Language Resources and Evaluation (LREC '00), May-June 2000, Athens, Greece 2: 965-968.
Young S, Evermann G, Gales M, et al.: The HTK Book (for HTK Version 3.4). Cambridge University, Cambridge, UK; 2006.
Ting C-W, Chien J-T: Factor analysis of acoustic features for streamed hidden Markov modeling. Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU '07), December 2007, Kyoto, Japan 30-35.
Amari S: Neural learning in structured parameter spaces—natural Riemannian gradient. In Advances in Neural Information Processing System. Volume 9. MIT Press, Cambridge, Mass, USA; 1997:127-133.