Sự phụ thuộc cú pháp phong phú hơn cho mô hình ngôn ngữ có cấu trúc

C. Chelba1, Peng Xu2
1Microsoft Speech.Net, Redmond, WA, USA
2Center for Language and Speech Processing, Johns Hopkins University, Baltimore, MD, USA

Tóm tắt

Bài báo này nghiên cứu việc sử dụng các phụ thuộc cú pháp phong phú hơn trong mô hình ngôn ngữ có cấu trúc (SLM). Chúng tôi trình bày hai phương pháp đơn giản để làm phong phú thêm các phụ thuộc trong cây phân tích cú pháp được sử dụng để khởi tạo SLM. Chúng tôi đánh giá tác động của cả hai phương pháp đối với perplexity (PPL) và tỷ lệ lỗi từ (WER, N-best rescoring) của SLM. Chúng tôi cho thấy rằng mô hình mới đạt được sự cải thiện về PPL và WER so với các kết quả cơ bản đã được báo cáo khi sử dụng SLM trên tập dữ liệu UPenn Treebank và Wall Street Journal (WSJ), tương ứng.

Từ khóa

#Ngôn ngữ tự nhiên #Con người #Xử lý âm thanh #Mô hình dự đoán

Tài liệu tham khảo

charniak, 2001, Immediate-head parsing for Ian-guage models, Proceedings of the 39th Annual Meeting and 10th Conference of the European Chapter of ACL, 116 collins, 1999, Head-driven statistical models for natural language parsing dempster, 1977, Maximum likelihood from incomplete data via the EM algorithm, Journal of the Royal Statistical Society, 39, 1 roark, 2001, Robust Probabilistic Predictive Syntactic Processing Motivations Models and Applications paul, 1992, The design for the Wall Street Joural-based CSR corpus, Proc DARPA SLS Workshop marcus, 1993, Building a large annotated corpus of English: the Penn Treebank, Computational Linguistics, 19, 313 chamiak, 2000, A maximum-entropy-inspired parser, Proceedings of the 1st Meeting of NAACL, 132 ratnaparkhi, 1997, A linear observed time statistical parser based on maximum entropy models, Second Conference on Empirical Methods in Natural Language Processing Providence R I, 1 10.1006/csla.2000.0147