Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Phân Tách Âm Thanh và Chuyển Đổi Văn Bản cho Việc Lập Chỉ Mục Dữ Liệu Phát Thanh
Tóm tắt
Nghiên cứu này giải quyết vấn đề chuyển đổi tự động các chương trình phát sóng truyền hình và radio bằng nhiều ngôn ngữ khác nhau. Việc chuyển đổi văn bản của các loại dữ liệu này là một bước quan trọng trong việc phát triển các công cụ tự động cho việc lập chỉ mục và truy xuất một khối lượng thông tin khổng lồ được tạo ra hàng ngày. Các chương trình phát sóng radio và truyền hình bao gồm một luồng dữ liệu liên tục được tạo thành từ các đoạn âm thanh có tính chất ngôn ngữ và âm học khác nhau, điều này tạo ra nhiều thách thức cho việc chuyển đổi. Trước khi nhận diện từ, dữ liệu được phân chia thành các đoạn âm học đồng nhất. Các đoạn không phải giọng nói được xác định và loại bỏ, trong khi các đoạn giọng nói được phân cụm và gán nhãn theo băng tần và giới tính. Việc nhận diện từ được thực hiện với một bộ nhận diện giọng nói liên tục, độc lập với người nói, có từ vựng lớn, sử dụng thống kê n-gram cho việc mô hình ngôn ngữ và các mô hình HMM với chiều dài liên tục có hỗn hợp Gaussian cho mô hình âm học. Hệ thống này đã liên tục đạt được hiệu suất hàng đầu trong các đánh giá của DARPA. Hơn 500 giờ dữ liệu phát sóng tiếng Anh Mỹ không phân đoạn đã được phân chia, chuyển đổi và lập chỉ mục, với tỷ lệ lỗi từ khoảng 20%. Với công nghệ IR hiện tại, về cơ bản không có sự suy giảm hiệu suất truy xuất thông tin cho các phần chuyển đổi tự động và thủ công trên bộ dữ liệu này.
Từ khóa
#chuyển đổi tự động #phát sóng truyền hình #phát sóng radio #chỉ mục dữ liệu #nhận diện từ #âm thanh #ngôn ngữ #HMMTài liệu tham khảo
S.S. Chen and P.S. Gopalakrishnan, “Environment and channel change detection and clustering via the Bayesian information criterion,” in Proc. DARPA Broadcast News Transcription and Understanding Workshop, Landsdowne, Virginia, Feb. 1998, pp. 127–132.
J.S. Garofolo, E.M. Voorhees, C.G.P. Auzanne, V.M. Stanford, and B.A. Lund, “Design and preparation of the 1996 Hub-4 broadcast news benchmark test corpora,” in Proc. of the DARPA Speech RecognitionWorkshop, Chantilly, Virginia, Feb. 1997, pp. 15–21. (see also http://www.nist.gov/speech/tests/).
J.S. Garofolo, C.G.P. Auzanne, E.M. Voorhees, and B. Fisher, “The TREC spoken document retrieval track: a success story,” in Proc. 8th Text Retrieval Conference TREC-8, Gaithersburg, Maryland, Nov. 1998, pp. 107–130.
J.L. Gauvain and C.H. Lee, “Maximum a posteriori estimation for multivariate gaussain mixture observation of markov chains, IEEE Trans. on SAP, Vol. 2, No. 2, pp. 291–298, April 1994.
J.L. Gauvain, L. Lamel, G. Adda, and M. Adda-Decker, “The LIMSI Nov93 WSJ system,” in Proc. ARPA Spoken Language Technologies Workshop, Plainsboro, New Jersey, March 1994, pp. 125–128.
J.L. Gauvain, G. Adda, L. Lamel, and M. Adda-Decker, “Transcribing broadcast news: the LIMSI Nov96 Hub4 system,” in Proc. ARPA Speech Recognition Workshop, Chantilly, Virginia, Feb. 1997, pp. 56–63.
J.L. Gauvain, Y. de Kercadio, L. Lamel, and G. Adda, “The LIMSI SDR system for TREC-8,” in Proc. 8th Text Retrieval Conference TREC-8, Gaithersburg, Maryland, Nov. 1999, pp. 475–482.
J.L. Gauvain, L. Lamel, G. Adda, and M. Jardino, “The LIMSI 1998 Hub-4E transcription system,” in Proc. DARPA Broadcast News Workshop, Herndon, Virginia, Feb. 1999, pp. 99–104.
T. Hain, S.E. Johnson, A. Tuerk, P.C. Woodland, and S.J. Young. “Segment generation and clustering in the HTK broadcast news transcription system,” in DARPA Broadcast News Transcription and Understanding Workshop, Landsdowne, Virginia, Feb. 1998, pp. 133–137.
D. Hiemstra and K. Wessel, “Twenty-one at TREC-7: ad-hoc and cross-language track,” in Proc. 7th Text Retrieval Conference TREC-7, 227–238, Gaithersburg, Maryland, Nov. 1999.
K.S. Jones, S. Walker, and S.E. Robertson, “A probabilistic model of information retrieval: development and status,” A technical report of the computer laboratory, University of Cambridge, U.K., 1998.
F.M.G. de Jong, J.L. Gauvain, J. den Hartog, and K. Netter, “Olive: speech based video retrieval,” in Proc. CBMI'99, Toulouse, France, Oct. 1999.
C.J. Leggetter and P.C. Woodland,“Maximumlikelihood linear regression for speaker adaptation of continuous density hidden Markov models,” Computer Speech and Language, Vol. 9, No. 2, pp. 171–185, 1995.
D.R.H. Miller, T. Leek, and R.M. Schwartz, “BBN at TREC7: using hidden markov models for information retrieval,” in Proc. 7th Text Retrieval Conference TREC-7, Gaithersburg, Maryland, Nov. 1999, pp. 133–142.
M.F. Porter, “An Algorithm for Suffix, Stripping,” Program Vol. 14, No. 3, pp. 130–137, 1980.
PSMedia. http://www.thomson.com/psmedia/bnews.html
M. Siegler, U. Jain, B. Raj, and R. Stern, “Automatic segmentation, classification and clustering of broadcast news audio,” in Proc. DARPA Speech Recognition Workshop, Chantilly, Virginia, Feb. 1997, pp. 97–99.
UMass. ftp://ciir-ftp.cs.umass.edu/pub/stemming/
S. Walker and R. de Vere, “Improving subject retrieval in online catalogues: 2. Relevance feedback and query expansion,” British Library Research Paper 72, British Library, London, U.K., 1990.