Tối ưu hóa độ dài mô hình Hidden Markov cho các hệ thống nhận dạng chữ viết tay

M. Zimmermann1, H. Bunke1
1Institute of Informatics and Applied Mathematics, University of Bern, Bern, Switzerland

Tóm tắt

Bài báo này điều tra việc sử dụng ba phương thức khác nhau để tối ưu hóa số trạng thái của các mô hình Hidden Markov (HMM) theo dạng tuyến tính từ trái qua phải. Phương pháp đầu tiên mà chúng tôi mô tả là sơ đồ mô hình có độ dài cố định, trong đó mỗi mô hình ký tự được gán cùng một số trạng thái. Phương pháp thứ hai được xem xét là mô hình độ dài Bakis, trong đó số trạng thái mô hình được xác định theo một phân số nhất định của số quan sát trung bình của ký tự tương ứng. Trong sơ đồ mô hình thứ ba, số trạng thái mô hình được đặt theo một phân vị cụ thể của biểu đồ độ dài ký tự tương ứng. Phương pháp này được gọi là mô hình độ dài theo phân vị. Một so sánh giữa các sơ đồ mô hình độ dài khác nhau được thực hiện với một hệ thống nhận dạng chữ viết tay, sử dụng các hình ảnh ngoại tuyến của các từ tiếng Anh viết tay ngẫu nhiên từ cơ sở dữ liệu IAM. Đối với mô hình độ dài cố định, tỷ lệ nhận dạng đạt được là 61%. Với việc sử dụng mô hình độ dài Bakis hoặc mô hình độ dài theo phân vị, tỷ lệ nhận dạng từ có thể được cải thiện lên trên 69%.

Từ khóa

#Mô hình Hidden Markov #Nhận dạng chữ viết tay #Định dạng #Nhận dạng giọng nói #Nhận dạng ký tự #Tin học #Toán học #Biểu đồ tần số #Cơ sở dữ liệu hình ảnh #Thuật toán Viterbi

Tài liệu tham khảo

wang, 2001, Multibranch and two-pass hmm modeling approaches for offline cursive handwriting recognition, Proc 7th International Conference on Document Analysis and Recognition, 231, 10.1109/ICDAR.2001.953789 sin, 1997, Ligature modeling for online cursive script recognition, IEEE Trans on Pattern Analysis and Machine Intelligence, 19, 623, 10.1109/34.601250 stolke, 1994, Best-first model merging for hidden markov model induction, Technical Report TR-94-003 International Computer Science Institute rabiner, 1993, Fundamentals of speech recognition 10.1016/0031-3203(73)90044-7 10.1142/S0218001401000848 10.1109/34.494644 10.1109/ICDAR.1999.791885 10.1109/ICPR.2000.903584 elms, 1998, The advantage of using an HMM-based approach for faxed word recognition, Int Journal on Document Analysis and Recognition, 1, 18, 10.1007/s100320050003 10.1109/ICPR.2002.1047394 10.1016/0031-3203(95)00013-P li, 2001, HMM topology optimization for handwriting recognition, Int Conf Acoust Speech Signal Process (ICASSP) bakis, 1976, Continuous speech word recognition via centisecond acoustic states, Proc of ASA Meeting 10.1142/9789812830968_0006 jr, 2001, A two-stage hmm-based system for reconizing handwritten numeral strings, Proc 7th International Conference on Document Analysis and Recognition, 396 10.1109/ICDAR.1997.620559 ferguson, 1980, Variable duration models for speech, Proc of Symposium on Application of Hidden Markov Models to Text and Speech, 143 10.1016/S0885-2308(86)80009-2 lee, 2001, Data-driven design of HMM topology for online handwriting recognition, H Bunke and T Caelli Editors Hidden Markov Models Applications in Computer Vision Volume 45 of Machine Perception and Artificial Intelligence, 107, 10.1142/9789812797605_0006