Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Tối ưu hóa hiệu suất hệ thống nhận diện giọng nói với mô hình mạng nơ-ron sâu
Tóm tắt
Với sự phát triển của Internet, tương tác giữa người và máy đã trở nên ngày càng quan trọng. Nhận diện giọng nói chính xác đã trở thành một phương tiện quan trọng để đạt được sự tương tác này. Trong nghiên cứu này, mô hình mạng nơ-ron sâu được sử dụng để cải thiện hiệu suất nhận diện giọng nói. Các loại mạng nơ-ron sâu được nghiên cứu bao gồm mạng nơ-ron kết nối hoàn toàn theo hướng tiến (Feedforward Fully Connected Deep Neural Network), mạng nơ-ron độ trễ thời gian (Time-Delay Neural Network), mạng nơ-ron tích chập (Convolutional Neural Network) và mạng nơ-ron ghi nhớ theo chuỗi (Feedforward Sequence Memory Neural Network), và hiệu suất nhận diện giọng nói của chúng được đánh giá bằng cách so sánh các mô hình âm thanh của từng loại. Hơn nữa, hiệu suất nhận diện của mô hình sau khi thêm các đặc trưng giọng nói khác nhau đã được kiểm tra. Kết quả cho thấy rằng hiệu suất của hệ thống nhận diện giọng nói có thể được cải thiện một cách hiệu quả bằng cách sử dụng mô hình mạng nơ-ron sâu, trong đó hiệu suất của mạng nơ-ron ghi nhớ theo chuỗi đạt hiệu quả tốt nhất, tiếp theo là mạng nơ-ron sâu, mạng nơ-ron độ trễ thời gian và mạng nơ-ron tích chập. Các đặc trưng trích xuất khác nhau có tác động cải thiện khác nhau đến hiệu suất của mô hình. Hiệu suất của mô hình được thêm các đặc trưng trích xuất Fbank vượt trội hơn so với mô hình được thêm đặc trưng trích xuất hệ số cepstrum tần số Mel (MFCC). Hiệu suất của mô hình cải thiện sau khi bổ sung các đặc trưng giọng nói. Các mô hình khác nhau có các kích thước đặc trưng giọng nói khác nhau.
Từ khóa
#nhận diện giọng nói #mạng nơ-ron sâu #hiệu suất #đặc trưng giọng nói #cải thiện mô hìnhTài liệu tham khảo
Chan, W., Jaitly, N., Le, Q., and Vinyals, O., Listen, attend and spell: A neural network for large vocabulary conversational speech recognition, IEEE International Conference on Acoustics, Speech and Signal Processing, Shanghai, 2016, pp. 4960–4964.
Wang, Y., Li, J. and Gong, Y., Small-footprint high-performance deep neural network-based speech recognition using split-VQ, IEEE International Conference on Acoustics, Speech and Signal Processing, 2015, pp. 4984–4988.
Wu, C., Karanasou, P., Gales, M.J.F., and Sim K.C., Stimulated deep neural network for speech recognition, in Interspeech, San Francisco, 2016, pp. 400–404.
Graves, A., Mohamed, A.R. and Hinton, G., Speech recognition with deep recurrent neural networks, IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, 2013, pp. 6645–6649.
Salvador, S.W. and Weber, F.V., US Patent 9 153 231, 2015.
Cai, J., Li, F., Zhang, Y., and Liu, Y., Research on multi-base depth neural network speech recognition, Advanced Information Technology, Electronic and Automation Control Conference, Chongqing, 2017, pp. 1540–1544.
Chorowski, J., Bahdanau, D., Serdyuk, D., Cho, K., and Bengio, Y., Attention-based models for speech recognition, Comput. Sci., 2015, vol. 10, no. 4, pp. 429–439.
Miao, Y., Gowayyed, M., and Metze, F., EESEN: End-to-end speech recognition using deep RNN models and WFST-based decoding, Automatic Speech Recognition & Understanding, Scottsdale, 2015, pp. 167–174.
Schwarz, A., Huemmer, C., Maas, R. and Kellermann, W., Spatial diffuseness features for DNN-based speech recognition in noisy and reverberant environments, IEEE International Conference on Acoustics, Speech and Signal Processing, 2015, pp. 4380–4384.
Kipyatkova, I., Experimenting with hybrid TDNN/HMM acoustic models for Russian speech recognition, Speech and Computer: 19th International Conference, 2017, pp. 362–369.
Yoshioka, T., Karita, S. and Nakatani, T., Far-field speech recognition using CNN-DNN-HMM with convolution in time’, IEEE International Conference on Acoustics, Speech and Signal Processing, Brisbane, 2015, pp. 4360–4364.
Wang, Y., Bao, F., Zhang, H. and Gao, G.L., Research on Mongolian speech recognition based on FSMN, Natural Language Processing and Chinese Computing, 2017, pp. 243–254.
Alam, M.J., Gupta, V., Kenny, P., and Dumouchel, P., Speech recognition in reverberant and noisy environments employing multiple feature extractors and i-vector speaker adaptation’, EURASIP J. Adv. Signal Process., 2015, vol. 2015, no. 1, p. 50.
Brayda, L., Wellekens, C., and Omologo, M., N-best parallel maximum likelihood beamformers for robust speech recognition, Signal Processing Conference, Florence, 2015, pp. 1–4.
Ali, A., Zhang, Y., Cardinal, P., Dahak, N., Vogel, S., and Glass, J.R., A complete KALDI recipe for building Arabic speech recognition systems, 2014 Spoken Language Technology Workshop, South Lake Tahoe, NV, 2015, pp. 525–529.