Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Đăng ký từ ngoài từ vựng theo cách động cho mô hình ngôn ngữ trong nhận diện giọng nói
Tóm tắt
Chúng tôi đề xuất một phương pháp đăng ký động các từ ngoài từ vựng (OOV) bằng cách gán phát âm của những từ này cho các token OOV đã được chèn sẵn, chỉnh sửa phát âm của các token. Để thực hiện điều này, chúng tôi thêm các token OOV vào một bản sao bổ sung, một phần của tập dữ liệu, hoặc là ngẫu nhiên hoặc theo các nhãn phần của câu (POS) trong những câu được chọn, khi đào tạo mô hình ngôn ngữ (LM) cho nhận diện giọng nói. Kết quả là một LM chứa các token OOV, mà chúng tôi có thể gán phát âm cho chúng. Chúng tôi cũng nghiên cứu tác động của độ phức tạp âm học và tần suất xuất hiện “tự nhiên” của những từ OOV lên việc nhận diện các từ OOV đã được đăng ký. Phương pháp đăng ký từ OOV được đề xuất đã được đánh giá bằng cách sử dụng hai hệ thống nhận diện giọng nói tự động (ASR) hiện đại, Julius và Kaldi, với các mô hình âm học DNN-HMM và mô hình ngôn ngữ N-gram (cùng với một đánh giá bổ sung bằng việc tái đánh giá RNN với Kaldi). Kết quả thực nghiệm của chúng tôi cho thấy rằng khi sử dụng phương pháp đăng ký OOV đã đề xuất, các hệ thống ASR hiện đại có thể nhận diện các từ OOV mà không cần huấn luyện lại mô hình ngôn ngữ, rằng độ phức tạp âm học của các từ OOV ảnh hưởng đến việc nhận diện OOV, và rằng sự khác biệt giữa tần suất xuất hiện “tự nhiên” và tần suất được gán của các từ OOV có ít tác động đến kết quả nhận diện cuối cùng.
Từ khóa
Tài liệu tham khảo
I. Bazzi, J. R. Glass, in ICSLP-2000. Modeling out-of-vocabulary words for robust speech recognition (ISCA, 2000), pp. 401–404.
I. Bazzi, J. R. Glass, in ICSLP-2002. A multi-class approach for modelling out-of-vocabulary words (ISCA, 2002), pp. 1613–1616.
M. Creutz, T. Hirsimaki, M. Kurimo, A. Puurula, J. Pylkkonen, V. Siivola, M. Varjokallio, E. Arisoy, M. Saraclar, A. Stolcke, in NAACL-HLT 2007. Analysis of morph-based speech recognition and the modeling of out-of-vocabulary words across languages (ACL, 2007), pp. 380–397.
H. Sun, G. Zhang, M. Xu, in EUROSPEECH2003. Using word confidence measure for OOV words detection in a spontaneous spoken dialog system (ISCA, 2003), pp. 2713–2716.
B. Lecouteux, G. Linares, B. Favre, in EUROSPEECH2003. Using word confidence measure for OOV words detection in a spontaneous spoken dialog system (ISCA, 2003), pp. 2713–2716.
A. Rastrow, A. Sethy, B. Ramabhadran, in ICASSP 2009. A new method for OOV detection using hybrid word/fragment system (IEEE, 2009), pp. 3953–3956.
C. Parada, M. Dredze, D. Filimonov, F. Jelinek, in NAACL2010. Contextual information improves OOV detection in speech (ACL, 2010), pp. 216–224.
A. Martin, T. Kwiatkowski, M. Ostendorf, L. Zettlemoyer, in IEEE Spoken Language Technology Workshop 2012. Using syntactic and confusion network structure for out-of-vocabulary word detection (IEEE, 2012), pp. 159–164.
S. Thomas, K. Audhkhasi, Z. Tuske, Y. Huang, M. Picheny, in INTERSPEECH2019. Detection and recovery of OOVs for improved English broadcast news captioning (ISCA, 2019), pp. 2973–2977.
N. Sawada, H. Nishizaki, in The 5th Joint Meeting of ASA/ASJ, Journal of Acoustical Society of America. Correct phoneme sequence estimation using recurrent neural network for spoken term detection, vol. 140 (Acoustical Society of America, 2016), p. 3061.
S. Yamahata, Y. Yamaguchi, A. Ogawa, H. Masataki, O. Yoshioka, S. Takahashi, Automatic vocabulary adaptation based on semantic and acoustic similarities. IEICE Trans. Inf. Syst.E97-D:, 1488–1496 (2014).
W. Naptali, M. Tsuchiya, S. Nakagawa, Class-based n-gram language model for new words using out-of-vocabulary to in-vocabulary similarity. IEICE Trans. Inf. Syst. E95-D:, 2308–2317 (2012).
A. Currey, I. Illina, D. Fohr, in IEEE Spoken Language Technology Workshop (SLT). Dynamic adjustment of language models for automatic speech recognition using word similarity (IEEE, 2016), pp. 426–432.
S. Martin, J. Liermann, H. Ney, Algorithm for bigram and trigram word clustering. Speech Comm.24:, 19–37 (2005).
A. Allauzen, J. -L. Gauvain, in Acoustics, Speech, and Signal Processing, 2005. Proceedings.(ICASSP’05). Open vocabulary ASR for audiovisual document indexation (IEEE, 2005), pp. 1013–1016.
K. Maekawa, in ISCA and IEEE Workshop on Spontaneous Speech Processing and Recognition. Corpus of Spontaneous Japanese: its design and evaluation (ISCA and IEEE, 2003), pp. 7–12.
A. Lee, T. Kawahara, in APSIPA ASC 2009: Asia-Pacific Signal and Information Processing Association, 2009 Annual Summit and Conference. Recent development of open-source speech recognition engine Julius (APSIPA, 2009), pp. 131–137.
D. P. A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz, J. Silovsky, G. Stemmer, K. Vesely, in IEEE 2011 Workshop on Automatic Speech Recognition and Understanding. The Kaldi speech recognition toolkit (IEEE, 2011).
A. Stolcke, in Seventh International Conference on Spoken Language Processing. SRILM-an extensible language modeling toolkit (ISCA, 2002), pp. 901–904.
T. Mikolov, S. Kombrink, A. Deoras, L. Burge, J. Cernocky, in IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). RNNLM - recurrent neural network language modeling toolkit (IEEE, 2011).
N. Kitaoka, D. Enami, S. Nakagawa, Effect of acoustic and linguistic contexts on human and machine speech recognition. Comput. Speech Lang.28:, 769–787 (2014).