Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Nhận dạng các ký tự Urdu viết tay ngoại tuyến sử dụng các mô hình RNN và LSTM
Tóm tắt
Nhận dạng Ký tự Quang học (OCR) giúp chuyển đổi các loại tài liệu quét khác nhau, chẳng hạn như hình ảnh thành nội dung có thể tìm kiếm và chỉnh sửa. OCR phụ thuộc vào ngôn ngữ và rất ít nghiên cứu đã được thực hiện trong lĩnh vực này cho các chữ viết tiếng Urdu và các chữ viết tương tự (ví dụ: tiếng Farsi, tiếng Ả Rập và tiếng Urdu), trái ngược với các ngôn ngữ khác như tiếng Anh, tiếng Hindi, ... Sự thiếu thốn công trình nghiên cứu này được cho là do thiếu các cơ sở dữ liệu chuẩn công khai và những phức tạp vốn có liên quan đến các ngôn ngữ này, chẳng hạn như tính chất viết nối và sự thay đổi hình dạng của ký tự tùy thuộc vào vị trí của nó trong một liên kết. Mỗi ký tự có từ 2-4 hình dạng khác nhau tùy theo vị trí của nó trong từ: đầu từ, giữa từ, hoặc cuối từ. Trong bài viết này, chúng tôi đã đề xuất một phương pháp để tự động hóa quy trình thu thập dữ liệu và đã thu thập một tập dữ liệu viết tay lớn gồm 110.785 ký tự Urdu và thực hiện phân tích so sánh giữa hai mô hình học sâu SimpleRNN và LSTM để thể hiện tiềm năng của các mô hình RNN trong nhận dạng ký tự. Dữ liệu được thu thập từ 250 tác giả trên giấy A4. Mỗi tờ giấy chứa 132 hình dạng cho các ký tự Urdu và 10 chữ số. Theo như các tác giả biết, đây là lần đầu tiên một tập dữ liệu lớn như vậy được đề xuất chứa tất cả các hình dạng có thể của các ký tự và chữ số Urdu. Các thí nghiệm đã được thực hiện cho số, ký tự đầy đủ và cho toàn bộ tập dữ liệu riêng biệt để thực hiện phân tích so sánh khả năng phân loại của các mô hình RNN và LSTM. Mặc dù có những phức tạp vốn có trong chữ viết Urdu, các mô hình RNN và LSTM đã chứng minh hiệu quả hơn trong việc đạt được tỉ lệ chính xác cao. Tỉ lệ chính xác tương ứng cho RNN đạt được cho mỗi loại là: 96.96% cho số, 85.22% cho ký tự đầy đủ và 73.62% cho toàn bộ dữ liệu; còn LSTM đã vượt trội hơn với mức chính xác cao nhất cho mỗi loại dữ liệu lần lượt là 97.80% cho số, 97.43% cho ký tự đầy đủ và 91.30% cho toàn bộ dữ liệu. Ngoài ra, tập dữ liệu được đề xuất mở ra một cánh cửa mới cho nghiên cứu tương lai, thể hiện tiềm năng vô hạn của tập dữ liệu này cho phân tích dữ liệu không chỉ cho ngôn ngữ Urdu mà còn cho các ngôn ngữ khác như tiếng Ả Rập, Tiếng Ba Tư, ... sử dụng các tập ký tự tương tự.
Từ khóa
Tài liệu tham khảo
Abdul SS, Shams-ul H, Khan PM (2009) A Finite State Model for Urdu Nastalique Optical Character Recognition. 12th International Conference on Document Analysis and Recognition, 9, 116–122
Ahmad Z, Orakzai JK, Shamsher I, Adnan A (2007) Urdu Nastaleeq Optical Character Recognition. World Academy of Science, Engineering and Technology 32:249–252
Ahmed SB, Naz S, Swat S, Razzak MI (2017) Handwritten Urdu Character Recognition using 1-Dimensional BLSTM Classifier. Neural Computing & Applications 31:1143–1151
Ali J, Nazir S (2014) Diacritics Recognition Based Urdu Nastalique OCR System. The Nucleus 51:361–367
Benediktsson JA, Ghamisi P (2015) Spectral-Spatial Classification of Hyperspectral Remote Sensing Images. Boston, MA, USA
Bhat GM, Hafiz A (2016) Arabic OCR Using a Novel Hybrid Classification Scheme. Journal of Pattern Recognition Research, 55–60
Dong S, Wang P, Abbas K (2021) A survey on deep learning and its applications. Computer Science Review:1–22
Ebrahinpour R, Amini M, Sharifizadehi F (2011) Farsi Handwritten Recognition Using Combining Neural Networks. Int J Electr Eng Inform, 3
Hochreiter, Schmidhuber, J. (1997). Long short-term memory. Neural Comput, (pp. 1735–1780)
Javed ST, Hussain S (2013) Segmentation Based Urdu Nastalique OCR. CIARP 2013, (pp. 41–49)
Javed ST, Hussain S, Maqbool S, Asloob A, Jamil SS, Moin H (2010) Segmentation Free Nastalique Urdu OCR. International Journal of Computer and Information Engineering 10:1514–1519
Javed N, Shabbir S, Siddiqi I, Khurshid K (2017) Classification of Urdu ligatures using convolutional neural networks-a novel pproach
Khan K, Ullah R, Khan NA, Naveed K (2012) Urdu Character Recognition using Principal Component Analysis. International Journal of Computer Applications 0975–8887(60):1–4
Khan, K., Khan, R. U., Alkhalifah, A., & Ahmad, N. (2015) Urdu Text Classification using decision Trees. IEEE, (pp. 56–59)
Kumar M, Sharma RK, Jindal MK (2014) Efficient Feature Extraction Techniques for Offline Handwritten Gurmukhi Character Recognition. National Academy Science Letters 37(4):381–391
Mou L, Ghamisi P, Zhu XX (2017a) Deep Recurrent Neural Networks for Hyperspectral Image Classification. IEEE Trans Geosci Remote Sens, (pp. 3639–3655)
Mou L, Ghamisi P, Zhu XX (2017b) Deep Recurrent Neural Networks for Hyperspectral Image Classification. IEEE Transactions Geosci Remote Sens 55:3639–3655
Mushtaq F, Misgar M, Khurana MK, Singh S (2021) UrduDeepNet: offline handwritten Urdu character recognition using deep neural network. Neural Comput Applic 15:229–15,252
Naz S, Khizar H, Imran RM, Waqas AM (2014) The optical character recognition of Urdu-like cursives cripts. Elsevier 47:1229–1248
Pal U, Sarkar A (2003) Recognition of Printed Urdu Script. International Conference on Document Analysis and Recognition
Pradeep J, Srinivasan E, Himavathi S (2010) Diagonal Feature Extraction Based Handwritten Character System Using Neural Network. International Journal of Computer Applications 0975–8887(8):17–22
Rizvi S, Sagheer A, Adnan K, Muhammad A (2019) Optical character recognition system for Nastalique Urdu-like script languages using supervised learning. Int J Pattern Recognit Artif Intell
Sagheer MW, He CL, Nobile N, Suen CY (2009) A New Large Urdu Database for Off-Line Handwriting recognition. International Confrence on image Analysis and Processing (pp. 538–546). Springer, Berlin,Heidelberg
Sagheer MW, He CL, Nobile N, Suen CY (2010) Holistic Urdu Handwritten Word Recognition Using Support Vector Machine. In: International Conference on Pattern Recognition, pp 1900–1903
Shahzad N, Brandon, Hammond T (2009) Urdu Qaeda: Recognition System for Isolated Urdu Characters. (pp. 1–5)
Shamsher I, Ahmad Z, Orakzai JK, Adnan A (2007) OCR For Printed Urdu Script Using Feed Forward Neural Network. International Journal of World Academy of Science, Engineering and Technology 1:2987–2989
Ul-Hasan A, Ahmed SB, Rashid SF, Shafait F, Breuel TM (2013) Offline Printed Urdu Nastaleeq Script Recognition with Bidirectional LSTM Networks. 12th International Conference on Document Analysis and Recognition
Wahab A, Haque SN (2010) Optical Character Recognition System for Urdu Online and Offline OCR Irrespective of Fonts. J Ind Stud Res Comput, 8
Zand M, Nilchi AN, Monadjemi SA (2008) Recognition-based Segmentation in Persian Character Recognition. International Journal of Computer, Electrical, Automation, Control and Information Engineering 2:312–315
