Thuật toán tách nguồn lời nói thích ứng trong trường hợp vượt quá cấu thành sử dụng mô hình hỗn hợp Laplace cho ước lượng ma trận hỗn hợp bằng thuật toán EM thích ứng trong miền gói sóng

International Journal of Speech Technology - Tập 11 - Trang 33-42 - 2009
Behzad Mozaffari1, Mohammad A. Tinati1
1Faculty of Electrical and Computer Engineering, University of Tabriz, Tabriz, Iran

Tóm tắt

Quá trình xử lý âm thanh đã được hưởng lợi rất nhiều từ biến đổi wavelet. Gói wavelet phân tích tín hiệu thành các thành phần rộng hơn bằng cách sử dụng phân đôi phổ tuyến tính. Trong bài báo này, các hỗn hợp tín hiệu lời nói được phân tích bằng gói wavelet, sự khác biệt pha giữa hai hỗn hợp được nghiên cứu trong miền wavelet. Phương pháp của chúng tôi định nghĩa Mô hình Hỗn hợp Laplace (LMM). Thuật toán Kì vọng Tối đa hóa (EM) được sử dụng để huấn luyện mô hình và tính toán các tham số của mô hình, là ma trận hỗn hợp. Sau đó, chúng tôi so sánh ước lượng của ma trận hỗn hợp bằng LMM-EM với các wavelet khác nhau. Cuối cùng, chúng tôi sử dụng thuật toán thích ứng trong mỗi gói wavelet để tách lời nói và nhận thấy rằng kết quả đạt được tốt hơn. Do đó, các thành phần lời nói riêng lẻ trong hỗn hợp lời nói được tách biệt.

Từ khóa

#tách nguồn lời nói #gói wavelet #mô hình hỗn hợp Laplace #thuật toán EM #phân tích tín hiệu

Tài liệu tham khảo

Bell, A. J., & Sejnowski, T. J. (1995). An information-maximization approach to blind separation and blind deconvolution. Neural Computation, 7, 1129–1159. Bilmes, J. A. (1998). A gentle tutorial of the EM algorithm and its application to parameter estimation for Gaussian mixtures and hidden mixture models (Technical Report). Dept. Elect. Eng. Comput. Sci., Univ. California, Berkeley, California. Bofill, P., & Zibulevsky, M. (2001). Underdetermined blind source separation using sparse representation networks. Signal Processing, 81(11), 2353–2362. Calamante, F., Mørup, M., & Hansen, L.K. (2004). Defining a local arterial input function for perfusion MRI using independent component analysis. Magnetic Resonance in Medicine, 52(4), 789–797. Calhoun, V. D., Adali, T., Hansen, L. K., Larsen, J., & Pekar, J. J. (2003). ICA of functional MRI data: an overview. In Fourth international symposium on independent component analysis and blind source separation (pp. 281–288). Cardoso, J.-F. (1998). Blind signal separation: Statistical principles. In Proc. IEEE (Vol. 86, pp. 2009–2025). Comon, P. (1994). Independent component analysis—A new concept? Signal Processing, 36, 287–314. Comon, P., & Mourrain, B. (1996). Decomposition of quantics in sums of powers of linear forms. Signal Processing, 53, 93–107. Davies, M., & Mitianoudis, N. (2004). A simple mixture model for sparse overcomplete ICA networks. IEE Proceedings Vision, Image and Signal Processing, 151(1), 35–43. Hermann, M., & Yang, H. (1996). Perspectives and limitations of selforganizing maps. In Proc. ICONIP’96. Hyvarinen, A. (1998). Independent component analysis in the presence of Gaussian noise by maximizing joint likelihood networks. Neural Computation, 22, 49–67. Karlsen, B., Sørensen, H. B., Larsen, J., & Jackobsen, K. B. (2002). Independent component analysis for clutter reduction in ground penetrating radar data. In Proceedings of the SPIE, AeroSense 2002 (Vol. 4742, pp. 378–389). Bellingham: SPIE. Lee, T.-W. (1998). Independent component analysis: theory and applications. Boston: Kluwer. Lewicki, M., & Sejnowski, T. J. (1998). Learning nonlinear overcomplete representations for efficient coding. In Advances in neural information processing systems (Vol. 10, pp. 815–821). Cambridge: MIT Press. Lewicki, M., & Sejnowski, T. J. (2000). Learning over complete representations networks. Neural Computation, 12, 337–365. Lewicki, M. S., & Sejnowski, T. J. (2009, to be published) Learning over complete representations, Neural Computation. McKeown, M., Hansen, L. K., & Sejnowski, T. J. (2003). Independent Component Analysis for fMRI: What is Signal and What is Noise? Current Opinion in Neurobiology, 13(5), 620–629. Mitianoudis, N. (2004). Audio source separation using independent component analysis. Ph.D. dissertation, Queen Mary, London, UK. Tinati, M. A., & Mozaffari, B. (2005a). Comparison of time-frequency and time-scale analysis of speech signals using STFT and DWT. WSEAS Transaction on Signal Processing, 1(1), 11–16. Tinati, M. A., & Mozaffari, B. (2005b). A novel method for noise cancellation of speech signals using wavelet packets. In 2005 Proc. 7th, int. conf. on advanced communication technology (Phoenix Park, Korea, 21–23 February 2005) (Vol. 1, pp. 35–38). Zibulevsky, M., Kisilev, P., Zeevi, Y. Y., & Pearlmutter, B. A. (2002). Blind source separation via multimode sparse representation networks. Advances in Neural Information Processing Systems, 14, 1049–1056.