Phương pháp phân tích bố cục tài liệu hiệu quả bộ nhớ bằng cách sử dụng LD-Net

Haoyu Zhao1, Weidong Min1,2,3, Qi Wang4, Zitai Wei1
1School of Mathematics and Computer Science, Nanchang University, Nanchang, China
2Institute of Metaverse, Nanchang University, Nanchang, China
3Jiangxi Key Laboratory of Smart City, Nanchang, China
4School of Software, Nanchang University, Nanchang, China

Tóm tắt

Phân tích bố cục tài liệu là một bước quan trọng trong nhận dạng ký tự quang học. Các phương pháp dựa trên đặc trưng theo cách thủ công truyền thống không thể xử lý nhiều định dạng khác nhau để đạt độ chính xác cao. Mặc dù các phương pháp dựa trên học sâu đạt được độ chính xác thỏa mãn, nhưng chúng không hiệu quả về bộ nhớ cho các thiết bị có bộ nhớ thấp như điện thoại di động. Để giảm thiểu những vấn đề này, một phương pháp phân tích bố cục tiết kiệm bộ nhớ với Mạng Giãn Nhẹ (LD-Net) được đề xuất trong nghiên cứu này. Hình ảnh trang tài liệu ban đầu được phân đoạn thành các khối nội dung thông qua thuật toán Otsu và RLSA. Mỗi khối được gửi vào LD-Net để phân loại thành bốn loại khác nhau, bao gồm hình, bảng, văn bản và công thức. Cấu trúc chính của LD-Net là một mạng nông, hoạt động tốt hơn so với mạng sâu hơn cho nhiệm vụ phân tích bố cục. Mỗi lớp tích chập được cấu thành từ tích chập phân tách theo chiều sâu và cấu trúc hồi tiếp. Ngoài ra, tích chập giãn cũng được áp dụng trong LD-Net để cải thiện độ chính xác của kết quả phát hiện. Các kết quả thực nghiệm dựa trên các tiêu chuẩn cho thấy phương pháp được đề xuất đạt hiệu suất tốt hơn về độ chính xác và bộ nhớ được chiếm dụng. Độ chính xác của mô hình trên tập dữ liệu ICDAR là 95,7% và bộ nhớ của mô hình chiếm 39,7MB, vượt trội hơn so với các phương pháp hiện có.

Từ khóa

#phân tích bố cục tài liệu #nhận dạng ký tự quang học #mạng giãn nhẹ #hiệu quả bộ nhớ #học sâu

Tài liệu tham khảo

Bhowmik S, Kundu S, Sarkar R (2020) BINYAS: A complex document layout analysis system. Multimedia Tools Appl, pp 1–34 Binmakhashen GM, Mahmoud SA (2019) Document layout analysis: A comprehensive survey. ACM Comput Surv 52(6):1–36 Breuel T (2002) Two geometric algorithms for layout analysis. In: Proc ACM Int Workshop Doc Anal Syst, Princeton, USA, pp 188–199 Breuel T (2008) The OCRopus open source OCR system. In: Proc IS&T/SPIE 20th Annu Symp, San Jose, California, USA, pp 0F1–0F15 Bukhari SS, Shafait F, Breuel T (2011) Improved document image segmentation algorithm using multiresolution morphology. In: SPIE document recognition and retrieval XVIII, DRR’11, San Francisco, USA, pp 78740D–78740D Bukhari S, Shafait F, Breuel T (2013) Towards generic text-line extraction. In: Proc Int Conf Document Anal Recognit (ICDAR), Washington, pp 748–752 Bukhari S, Shafait F, Breuel T (2013) Coupled snakelets for curled text-line segmentation from warped document images. Int J Doc Anal Recognit. (IJDAR) 16(1):33–53 Campos VB, Calvo-Zaragoza J, Toselli AH, Ruiz EV (2016) Sheet Music Statistical Layout Analysis. In: Proc 14th Int Conf Frontiers Handwriting Recognit (ICFHR), Shenzhen, China, pp 313–318 Chang F, Chu S-Y, Chen C-Y (2005) Chinese document layout analysis using adaptive regrouping strategy. Pattern Recognit 38:261–271 Dai-Ton H, Duc-Dung N, Duc-Hieu L (2016) An, adaptive over-split and merge algorithm for page segmentation. Pattern Recogn Lett 80:137–143 De R, Chakraborty A, Sarkar R (2020) Document image binarization using dual discriminator generative adversarial networks. IEEE Signal Process Lett 27:1090–1094 Gao L, Yi X, Jiang Z, Hao L, Tang Z (2017) ICDAR 2017 competition on page object detection. In: Proc 14th IAPR Int Conf Document Anal Recognit (ICDAR), Kyoto, Japan, pp 141–1422 Hesham AM, Rashwan MA, Al-Barhamtoshy HM, Abdou SM, Badr AA, Farag I (2017) Arabic document layout analysis. Pattern Anal Appl 20:1275–1287 Howard AG, Zhu M, Chen B, Kalenichenko D, Wang W, Weyand T, Andreetto M, Adam H (2017) Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv:1704.04861 Kasar T, Barlas P, Adam S, Chatelain C, Paquet T (2013) Learning to detect tables in scanned document images using line information. In: Proc Int Conf Document Anal Recognit (ICDAR), pp 1185–1189 Koci E, Thiele M, Lehner W, Romero O (2018) Table recognition in spreadsheets via a graph representation. In: IAPR international workshop on document analysis systems (DAS). IEEE, Vienna, Austria, pp 139–144 Le VP, Nayef N, Visani M, Ogier J, Tran CD (2015) Text and non-text segmentation based on connected component features. In: Proc Int Conf Document Anal Recognit (ICDAR), Tunis, pp 1096–1100 Li Y, Zou Y, Ma J (2018) DeepLayout: A semantic segmentation approach to page layout analysis. In: Proc Int Conf Intell Comput, Bengaluru, India, pp 266–277 Min W, Fan M, Guo X, Han Q (2018) A new approach to track multiple vehicles with the combination of robust detection and two classifiers. IEEE Trans Intell Trans Syst 19:174–186 Moysset B, Messina R (2019) Are 2d-lstm really dead for offline text recognition. Int J Document Anal Recognit (IJDAR) 22:1–16 Nayef N, Ogier J (2015) Text zone classification using unsupervised feature learning. In: Proc Int Conf Document Anal Recognit (ICDAR), Tunis, pp 776–780 Nguyen NV, Rigaud C, Burie JC (2019) Comic MTL: optimized multi-task learning for comic book image analysis. Int J Document Anal Recognit (IJDAR) 22:265–284 Niu Y, Wen J, Zhong P, Xue Y (2019) A Hybrid, R-BILSTM-C neural network based text steganalysis. IEEE Signal Process Lett 26(12):1907–1911 Oliveira DAB, Viana PM (2017) Fast CNN-based document layout analysis. In: Proc IEEE Conf Comput Vis Pattern Recog, Waikiki, USA, pp 1173–1180 Otsu N (1979) Threshold selection method from gray-level histograms. IEEE Trans Syst Man Cybern SMC-9(1):62–66 Phillips I (1995) User’s reference manual, cd-rom, uw-iii document image database-iii Qin X, Zhou Y, He Z, Wang Y, Tang Z (2017) A Faster R-CNN based method for comic characters face detection. In: Proc Int Conf Document Anal Recognit (ICDAR), Kyoto, Japan, pp 1074–1080 Royer E, Bouchara F (2017) Guiding text image keypoints extraction through layout analysis. In: Proc Int Conf Document Anal Recognit (ICDAR), Kyoto, Japan, pp 9–14 Selvaraju RR, Cogswell M, Das A, Vedantam R, Parikh D, Batra D (2017) Grad-CAM: Visual explanations from deep networks via gradient-based localization. In: Proc IEEE Int Conf Comput Vis, pp 618–626 Tran TA, Na IS, Kim SH (2016) Page segmentation using minimum homogeneity algorithm and adaptive mathematical morphology. Int J Doc Anal Recognit (IJDAR) 19(3):191–209 Tran TA, Na IS, Kim SH (2017) A robust system for document layout analysis using multilevel homogeneity structure. Expert Syst Appl 85:99–113 Tran DN, Tran TA, Oh A, Kim SH, Na IS (2005) Table detection from document image using vertical arrangement of text blocks. Int J Contents 11(4):77–85 Wang Q, Min W, He D, Zou S, Huang T, Zhang Y, Liu R (2020) Discriminative fine-grained network for vehicle re-identification using two-stage re-ranking. Sci China Inf Sci. https://doi.org/10.1007/385s11432-019-2811-8 Wong K, Casey R, Wahl F (1982) Document analysis systems. IBM J Res Dev 26(6):647–656 Yang J, Kim H, Kwak H, Kim I (2019) HanFont: large-scale adaptive Hangul font recognizer using CNN and font clustering. Int J Document Anal Recognit (IJDAR) 22:407–416 Yi X, Gao L, Liao Y, Zhang X, Liu R, Jiang Z (2017) CNN based page object detection in document images. In: Proc Int Conf Document Anal Recognit (ICDAR), Kyoto, Japan, pp 230–235 Yu F, Koltun V (2016) Multi-scale context aggregation by dilated convolutions. In: Proc Int Conf Learn Representations Zhang X, Zhou X, Lin M, Sun J (2018) ShuffleNet: An extremely efficient convolutional neural network for mobile devices. In: Proc Conf Computer Vision and Pattern Recognition (CVPR), Salt Lake, pp 6848–6856