Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo

Phương pháp Tích hợp Không gian Phoneme cho Việc Trích xuất Đặc trưng Giọng nói

EURASIP Journal on Audio, Speech, and Music Processing - Tập 2009 - Trang 1-6 - 2009

Hyunsin Park¹, Tetsuya Takiguchi¹, Yasuo Ariki¹

¹Graduate School of Engineering, Kobe University, Kobe, Japan

Tóm tắt

Việc trích xuất đặc trưng giọng nói đã là một trọng tâm chính trong nghiên cứu nhận diện giọng nói mạnh mẽ. Trong công trình này, chúng tôi bàn luận về các phép biến đổi đặc trưng tuyến tính dựa trên dữ liệu được áp dụng cho các vector đặc trưng trong miền ngân hàng bộ lọc mel tần suất logarithmic. Các phép biến đổi này dựa trên phân tích thành phần chính (PCA), phân tích thành phần độc lập (ICA) và phân tích phân biệt tuyến tính (LDA). Hơn nữa, bài báo này giới thiệu một kỹ thuật trích xuất đặc trưng mới, thu thập thông tin tương quan giữa các không gian phoneme và tái tạo không gian đặc trưng để thể hiện thông tin âm vị một cách hiệu quả. Vector đặc trưng giọng nói được đề xuất được tạo ra bằng cách chiếu một vector quan sát lên một không gian phoneme tích hợp (IPS) dựa trên PCA hoặc ICA. Hiệu suất của đặc trưng mới đã được đánh giá cho việc nhận diện giọng nói từ các từ lẻ. Phương pháp đề xuất đã cung cấp độ chính xác nhận diện cao hơn so với các phương pháp truyền thống trong các môi trường sạch và phản xạ.

Từ khóa

#trích xuất đặc trưng giọng nói #PCA #ICA #LDA #không gian phoneme #nhận diện giọng nói

Tài liệu tham khảo

Hermansky H, Morgan N: RASTA processing of speech. IEEE Transactions on Speech and Audio Processing 1994,2(4):578-589. 10.1109/89.326616 Kingsbury BED, Morgan N: Recognizing reverberant speech with RASTA-PLP. Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '97), April 1997, Munich, Germany 2: 1259-1262. Avendano C, Tivrewala S, Hermansky H: Multiresolution channel normalization for ASR in reverberant environments. Proceedings of the 6th European Conference on Speech Communication and Technology (Eurospeech '97), September 1997, Rhodes, Greece 1107-1110. Gelbart D, Morgan N: Evaluating long-term spectral subtraction for reverberant ASR. Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop (ASRU '01), December 2001, Madonna di Campiglio, Italy 103-106. Vetter R, Virag N, Renevey P, Vesin J-M: Single channel speech enhancement using principal component analysis and MDL subspace selection. Proceedings of the 6th European Conference on Speech Communication and Technology (Eurospeech '99), September 1999, Budapest, Hungary 2411-2414. Hermus K, Wambacq P, Van Hamme H: A review of signal subspace speech enhancement and its application to noise robust speech recognition. EURASIP Journal on Advances in Signal Processing 2007, Article ID 45821 15 Pages 2007:. Takiguchi T, Ariki Y: PCA-based speech enhancement for distorted speech recognition. Journal of Multimedia 2007,2(5):13-18. Hyvärinen A, Oja E: Independent component analysis: algorithms and applications. Neural Networks 2000,13(4-5):411-430. 10.1016/S0893-6080(00)00026-5 Kwon O-W, Lee T-W: Phoneme recognition using ICA-based feature extraction and transformation. Signal Processing 2004,84(6):1005-1019. 10.1016/j.sigpro.2004.03.004 Kajarekar SS, Yegnanarayana B, Hermansky H: A study of two dimensional linear discriminants for ASR. Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '01), May 2001, Salt Lake, Utah, USA 1: 137-140. Somervuo P: Experiments with linear and nonlinear feature transformations in HMM based phone recognition. Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '03), April 2003, Hong kong 1: 52-55. Kinoshita K, Nakatani T, Miyoshi M: Spectral subtraction steered by multi-step forward linear prediction for single channel speech dereverberation. Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '06), May 2006, Toulouse, France 1: 817-820. Toh AM, Togneri R, Nordholm S: Feature and distribution normalization schemes for statistical mismatch reduction in reverberant speech recognition. Proceedings of the 8th Annual Conference of the International Speech Communication Association (Interspeech '07), August 2007, Antwerp, Belgium 234-237. Petrick R, Lu X, Unoki M, Akagi M, Hoffmann R: Robust front end processing for speech recognition in reverberant environments: utilization of speech characteristics. Proceedings of the Annual Conference of the International Speech Communication Association (Interspeech '08), September 2008, Brisbane, Australia 658-661. Gomez R, Even J, Saruwatari H, Shikano K: Distant-talking robust speech recognition using late reflection components of room impulse response. Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '08), March-April 2008, Las Vegas, Nev, USA 4581-4584. Park H, Takiguchi T, Ariki Y: Integration of phoneme-subspaces using ICA for speech feature extraction and recognition. Proceedings of Hands-Free Speech Communication and Microphone Arrays (HSCMA '08), May 2008, Trento, Italy 148-151. Nakamura S, Hiyane K, Asano F, Nishimura T, Yamada T: Acoustical sound database in real environments for sound scene understanding and hands-free speech recognition. Proceedings of the 2nd International Conference on Language Resources and Evaluation (LREC '00), May-June 2000, Athens, Greece 2: 965-968. Young S, Evermann G, Gales M, et al.: The HTK Book (for HTK Version 3.4). Cambridge University, Cambridge, UK; 2006. Ting C-W, Chien J-T: Factor analysis of acoustic features for streamed hidden Markov modeling. Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU '07), December 2007, Kyoto, Japan 30-35. Amari S: Neural learning in structured parameter spaces—natural Riemannian gradient. In Advances in Neural Information Processing System. Volume 9. MIT Press, Cambridge, Mass, USA; 1997:127-133.

Scholar Hub - Công cụ hỗ trợ trích dẫn và phân tích khoa học Việt Nam

Scholar Hub là công cụ hỗ trợ trích dẫn và phân tích ảnh hưởng của các bài báo, công bố khoa học Việt Nam và Quốc tế.
ScholarHub KHÔNG đăng thông tin tổng hợp, KHÔNG đăng lại nội dung từ các trang báo chí Việt Nam hoặc trang thông tin điện tử khác tại Việt Nam.

Thông tin, cập nhật

Đăng ký Tạp chí tham gia Scholar Hub

Phản hồi ý kiến về Scholar Hub

Bài viết, nội dung cập nhật

Chủ đề khoa học

Website liên kết

Hệ thống CSDL Khoa học & Công nghệ SciBase

Phần mềm kiểm tra trùng lặp Kiểm Tra Tài Liệu

Phần mềm xuất bản tạp chí điện tử VOJS

Hệ thống hội thảo khoa học Việt Nam

Nền tảng trắc nghiệm và đề thi đa lĩnh vực LetQA

Thông tin liên hệ & hỗ trợ

Đơn vị chủ quản, phát triển và vận hành: Công ty Cổ phần Metis

Địa chỉ liên hệ: 26A Lê Đức Thọ, Phường Từ Liêm, Thành phố Hà Nội

Số giấy chứng nhận ĐKKD: 0109293202 cấp ngày 03/08/2020 tại Sở Kế hoạch và Đầu tư thành phố Hà Nội

Người quản lý và chịu trách nhiệm nội dung: Nguyễn Ngọc Sơn

Hotline: 0566.685.688

Email: [email protected]