Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo

Phân Tách Âm Thanh và Chuyển Đổi Văn Bản cho Việc Lập Chỉ Mục Dữ Liệu Phát Thanh

Multimedia Tools and Applications - Tập 14 - Trang 187-200 - 2001

J.L. Gauvain¹, L. Lamel¹, G. Adda¹

¹Spoken Language Processing Group, LIMSI-CNRS, Orsay, France

Tóm tắt

Nghiên cứu này giải quyết vấn đề chuyển đổi tự động các chương trình phát sóng truyền hình và radio bằng nhiều ngôn ngữ khác nhau. Việc chuyển đổi văn bản của các loại dữ liệu này là một bước quan trọng trong việc phát triển các công cụ tự động cho việc lập chỉ mục và truy xuất một khối lượng thông tin khổng lồ được tạo ra hàng ngày. Các chương trình phát sóng radio và truyền hình bao gồm một luồng dữ liệu liên tục được tạo thành từ các đoạn âm thanh có tính chất ngôn ngữ và âm học khác nhau, điều này tạo ra nhiều thách thức cho việc chuyển đổi. Trước khi nhận diện từ, dữ liệu được phân chia thành các đoạn âm học đồng nhất. Các đoạn không phải giọng nói được xác định và loại bỏ, trong khi các đoạn giọng nói được phân cụm và gán nhãn theo băng tần và giới tính. Việc nhận diện từ được thực hiện với một bộ nhận diện giọng nói liên tục, độc lập với người nói, có từ vựng lớn, sử dụng thống kê n-gram cho việc mô hình ngôn ngữ và các mô hình HMM với chiều dài liên tục có hỗn hợp Gaussian cho mô hình âm học. Hệ thống này đã liên tục đạt được hiệu suất hàng đầu trong các đánh giá của DARPA. Hơn 500 giờ dữ liệu phát sóng tiếng Anh Mỹ không phân đoạn đã được phân chia, chuyển đổi và lập chỉ mục, với tỷ lệ lỗi từ khoảng 20%. Với công nghệ IR hiện tại, về cơ bản không có sự suy giảm hiệu suất truy xuất thông tin cho các phần chuyển đổi tự động và thủ công trên bộ dữ liệu này.

Từ khóa

#chuyển đổi tự động #phát sóng truyền hình #phát sóng radio #chỉ mục dữ liệu #nhận diện từ #âm thanh #ngôn ngữ #HMM

Tài liệu tham khảo

S.S. Chen and P.S. Gopalakrishnan, “Environment and channel change detection and clustering via the Bayesian information criterion,” in Proc. DARPA Broadcast News Transcription and Understanding Workshop, Landsdowne, Virginia, Feb. 1998, pp. 127–132. J.S. Garofolo, E.M. Voorhees, C.G.P. Auzanne, V.M. Stanford, and B.A. Lund, “Design and preparation of the 1996 Hub-4 broadcast news benchmark test corpora,” in Proc. of the DARPA Speech RecognitionWorkshop, Chantilly, Virginia, Feb. 1997, pp. 15–21. (see also http://www.nist.gov/speech/tests/). J.S. Garofolo, C.G.P. Auzanne, E.M. Voorhees, and B. Fisher, “The TREC spoken document retrieval track: a success story,” in Proc. 8th Text Retrieval Conference TREC-8, Gaithersburg, Maryland, Nov. 1998, pp. 107–130. J.L. Gauvain and C.H. Lee, “Maximum a posteriori estimation for multivariate gaussain mixture observation of markov chains, IEEE Trans. on SAP, Vol. 2, No. 2, pp. 291–298, April 1994. J.L. Gauvain, L. Lamel, G. Adda, and M. Adda-Decker, “The LIMSI Nov93 WSJ system,” in Proc. ARPA Spoken Language Technologies Workshop, Plainsboro, New Jersey, March 1994, pp. 125–128. J.L. Gauvain, G. Adda, L. Lamel, and M. Adda-Decker, “Transcribing broadcast news: the LIMSI Nov96 Hub4 system,” in Proc. ARPA Speech Recognition Workshop, Chantilly, Virginia, Feb. 1997, pp. 56–63. J.L. Gauvain, Y. de Kercadio, L. Lamel, and G. Adda, “The LIMSI SDR system for TREC-8,” in Proc. 8th Text Retrieval Conference TREC-8, Gaithersburg, Maryland, Nov. 1999, pp. 475–482. J.L. Gauvain, L. Lamel, G. Adda, and M. Jardino, “The LIMSI 1998 Hub-4E transcription system,” in Proc. DARPA Broadcast News Workshop, Herndon, Virginia, Feb. 1999, pp. 99–104. T. Hain, S.E. Johnson, A. Tuerk, P.C. Woodland, and S.J. Young. “Segment generation and clustering in the HTK broadcast news transcription system,” in DARPA Broadcast News Transcription and Understanding Workshop, Landsdowne, Virginia, Feb. 1998, pp. 133–137. D. Hiemstra and K. Wessel, “Twenty-one at TREC-7: ad-hoc and cross-language track,” in Proc. 7th Text Retrieval Conference TREC-7, 227–238, Gaithersburg, Maryland, Nov. 1999. K.S. Jones, S. Walker, and S.E. Robertson, “A probabilistic model of information retrieval: development and status,” A technical report of the computer laboratory, University of Cambridge, U.K., 1998. F.M.G. de Jong, J.L. Gauvain, J. den Hartog, and K. Netter, “Olive: speech based video retrieval,” in Proc. CBMI'99, Toulouse, France, Oct. 1999. C.J. Leggetter and P.C. Woodland,“Maximumlikelihood linear regression for speaker adaptation of continuous density hidden Markov models,” Computer Speech and Language, Vol. 9, No. 2, pp. 171–185, 1995. D.R.H. Miller, T. Leek, and R.M. Schwartz, “BBN at TREC7: using hidden markov models for information retrieval,” in Proc. 7th Text Retrieval Conference TREC-7, Gaithersburg, Maryland, Nov. 1999, pp. 133–142. M.F. Porter, “An Algorithm for Suffix, Stripping,” Program Vol. 14, No. 3, pp. 130–137, 1980. PSMedia. http://www.thomson.com/psmedia/bnews.html M. Siegler, U. Jain, B. Raj, and R. Stern, “Automatic segmentation, classification and clustering of broadcast news audio,” in Proc. DARPA Speech Recognition Workshop, Chantilly, Virginia, Feb. 1997, pp. 97–99. UMass. ftp://ciir-ftp.cs.umass.edu/pub/stemming/ S. Walker and R. de Vere, “Improving subject retrieval in online catalogues: 2. Relevance feedback and query expansion,” British Library Research Paper 72, British Library, London, U.K., 1990.

Scholar Hub - Công cụ hỗ trợ trích dẫn và phân tích khoa học Việt Nam

Về chúng tôi

Scholar Hub là công cụ hỗ trợ trích dẫn và phân tích các bài báo, công bố khoa học Việt Nam. Công cụ trợ giúp người nghiên cứu, tạp chí, đơn vị nghiên cứu tra cứu, phân tích và thống kê dữ liệu nghiên cứu khoa học tại Việt Nam và quốc tế.
ScholarHub KHÔNG đăng thông tin tổng hợp, KHÔNG đăng lại nội dung từ các trang báo chí Việt Nam hoặc trang thông tin điện tử khác tại Việt Nam.

Thông tin, cập nhật

Đăng ký Tạp chí tham gia vào Scholar Hub

Phản hồi ý kiến về Scholar Hub

Bài viết, nội dung cập nhật

Chủ đề khoa học

Website liên kết

Hệ thống CSDL Khoa học & Công nghệ

Phần mềm kiểm tra trùng lặp Kiểm Tra Tài Liệu

Phần mềm xuất bản tạp chí điện tử VOJS

Nền tảng trắc nghiệm và đề thi đa lĩnh vực LetQA