Một phương pháp dịch máy tối ưu hóa hỗ trợ nhận thức cho xử lý ngôn ngữ tự nhiên

Computing - Tập 102 - Trang 605-622 - 2019
Abdulaziz Alarifi1, Ayed Alwadain1
1Computer Science Department, Community College, King Saud University, Riyadh, Saudi Arabia

Tóm tắt

Hiện nay, các quy trình dịch máy hỗ trợ bởi máy tính (MT) đóng vai trò quan trọng trong việc xử lý ngôn ngữ tự nhiên, được sử dụng để dịch một ngôn ngữ nhất định sang ngôn ngữ khác như từ tiếng Anh sang tiếng Tây Ban Nha, từ tiếng Latin sang tiếng Pháp. Trong quá trình dịch, đặc biệt là trong việc tạo cụm từ, các hệ thống MT có thể gặp phải một số vấn đề, bao gồm việc không sản xuất ra bản dịch chất lượng cao, thời gian tiêu tốn nhiều hơn, độ chính xác ngôn ngữ giảm và độ phức tạp giảm sút. Nghiên cứu này giới thiệu một quy trình dịch máy thống kê hỗ trợ nhận thức đã được tối ưu hóa nhằm giảm bớt những khó khăn này. Quy trình này sử dụng kỹ thuật học máy có giám sát (OCSMT-SMT) cho việc xử lý ngôn ngữ tự nhiên, nhằm dịch các cụm từ với độ chính xác cao hơn các kỹ thuật MT khác như Support Vector Machine, Hồi quy tuyến tính, Cây quyết định, Naïve Bayes và K-Nearest Neighbor. Phương pháp được giới thiệu ở đây sử dụng các phép toán ngữ nghĩa để xem xét các thông điệp thu thập được được xử lý trong mạng, và các kết quả thu được đã được lưu trữ trong bộ nhớ để có được bản dịch chính xác, giúp học ngữ nghĩa cụm từ bằng cách sử dụng MT. Phương pháp OCSMT-SMT cho phép đưa ra quyết định thông minh và nhanh chóng hơn về bản dịch cụm từ, từ đó làm giảm đáng kể thời gian dịch. Hiệu quả của phương pháp này được đánh giá thông qua bộ đánh giá song ngữ (BLEU) và Đánh giá tốt hơn theo thứ hạng (BEER) cho các tập dữ liệu cụm từ trong ngôn ngữ tiếng Anh. Điều này đảm bảo độ chính xác cao trong quá trình thực hiện MT.

Từ khóa


Tài liệu tham khảo

Mehta N, Devarakonda MV (2018) Machine learning, natural language programming, and electronic health records: the next step in the artificial intelligence journey? J Allergy Clin Immunol 141(6):2019–2021 Millen D, Coelho LMR (2019) U.S. Patent Application No. 15/695,209 Xu W, Xu F, Zou X, Xu Z (2018) The cognitive features of programming language and natural language. In: International conference on intelligence science. Springer, Cham, pp 184–190 Lakhani P, Prater AB, Hutson RK, Andriole KP, Dreyer KJ, Morey J, Prevedello LM, Clark TJ, Geis JR, Itri JN, Hawkins CM (2018) Machine learning in radiology: applications beyond image interpretation. J Am Coll Radiol 15(2):350–359 Baydin AG, Pearlmutter BA, Radul AA, Siskind JM (2018) Automatic differentiation in machine learning: a survey. J Mach Learn Res 18:1–43 Venkataraman NL, Kumar R, Shakeel PM (2019) Ant lion optimized bufferless routing in the design of low power application specific network on chip. Circuits Syst Signal Process. https://doi.org/10.1007/s00034-019-01065-6 Li J, Ning Z, Jedari B, Xia F, Lee I, Tolba A (2016) Geo-social distance-based data dissemination for socially aware networking. IEEE Access 4:1444–1453 Bai X, Zhang F, Hou J, Xia F, Tolba A, Elashkar E (2017) Implicit multi-feature learning for dynamic time series prediction of the impact of institutions. IEEE Access 5:16372–16382 Crangle CE, Wang R, Perreau-Guimaraes M, Nguyen MU, Nguyen DT, Suppes P (2019) Machine learning for the recognition of emotion in the speech of couples in psychotherapy using the Stanford Suppes Brain Lab Psychotherapy Dataset. arXiv preprint arXiv:1901.04110 Tolba A (2019) Content accessibility preference approach for improving service optimality in internet of vehicles. Comput Netw 152:78–86 Shakeel PM, Burhanuddin MA, Desa MI (2019) Lung cancer detection from CT image using improved profuse clustering and deep learning instantaneously trained neural networks. Measurement. https://doi.org/10.1016/j.measurement.2019.05.027 Alarifi A, Tolba A, Al-Makhadmeh Z, Said W (2018) A big data approach to sentiment analysis using greedy feature selection with cat swarm optimization-based long short-term memory neural networks. J Supercomput. https://doi.org/10.1007/s11227-018-2398-2 Baskar S, Periyanayagi S, Shakeel PM, Dhulipala VS (2019) An energy persistent range-dependent regulated transmission communication model for vehicular network applications. Comput Netw. https://doi.org/10.1016/j.comnet.2019.01.027 Wang J, Kong X, Rahim A, Xia F, Tolba A, Al-Makhadmeh Z (2017) IS2Fun: identification of subway station functions using massive urban data. IEEE Access 5:27103–27113 Chen W, Yan X, Zhao Z, Hong H, Bui DT, Pradhan B (2019) Spatial prediction of landslide susceptibility using data mining-based kernel logistic regression, naive Bayes and RBF network models for the Long County area (China). Bull Eng Geol Environ 78(1):247–266 Ahmed AM, Kong X, Liu L, Xia F, Abolfazli S, Sanaei Z, Tolba A (2017) BoDMaS: bio-inspired selfishness detection and mitigation in data management for ad-hoc social networks. Ad Hoc Netw 55:119–131 Jedari B, Xia F, Chen H, Das SK, Tolba A, Al-Makhadmeh Z (2019) A social-based watchdog system to detect selfish nodes in opportunistic mobile networks. Future Gener Comput Syst 92:777–788 Rathord P, Jain A, Agrawal C (2019) A comprehensive review on online news popularity prediction using machine learning approach. Int J Online Sci 5(1):7–7 Zhang F, Fleyeh H, Wang X, Lu M (2019) Construction site accident analysis using text mining and natural language processing techniques. Autom Constr 99:238–248 Liu F, Weng C, Yu H (2019) Advancing clinical research through natural language processing on electronic health records: traditional machine learning meets deep learning. In: Richesson R, Andrews J (eds) Clinical research informatics. Springer, Cham, pp 357–378 Da Li RR, Ptaszynski M, Araki K (2019) A novel machine learning-based sentiment analysis method for Chinese social media considering Chinese slang lexicon and emoticons Su M, Whitman J, Hermon G (eds) (1994) Syntactic theory and first language acquisition: cross-linguistic perspectives—volume 1: heads, projections, and learnability—volume 2: binding, dependencies, and learnability. Psychology Press, Hove Stepanov A, Andreetta S, Stateva P, Zawiszewski A, Laka I (2019) Anomaly detection in processing of complex syntax by early L2 learners. Second Lang Res. https://doi.org/10.1177/0267658319827065 Weber K, Christiansen MH, Indefrey P, Hagoort P (2019) Primed from the start: syntactic priming during the first days of language learning. Lang Learn 69(1):198–221 Mohamed Shakeel P, Baskar S, Selvakumar S (2019) Retrieving multiple patient information by using the virtual MIMO and path beacon in wireless body area network. Wireless Pers Commun. https://doi.org/10.1007/s11277-019-06525-5 Sadrzadeh M, Purver M, Hough J, Kempson R (2018) Exploring semantic incrementality with dynamic syntax and vector space semantics. arXiv preprint arXiv:1811.00614 Schmitz P, Sanmartin F, Francesconi E, Hajlaoui N, Batouche B, Stellato A (2018) Automatic alignment of multilingual resources in the linguistic linked open data cloud. J Open Access Libr 6:1 Young T, Hazarika D, Poria S, Cambria E (2018) Recent trends in deep learning based natural language processing. IEEE Comput Intell Mag 13(3):55–75 Fonferko-Shadrach B, Lacey A, Akbari A, Thompson S, Ford D, Lyons R, Rees M, Pickrell O (2018) Using natural language processing to extract structured epilepsy data from unstructured clinic letters. Int J Popul Data Sci 3(4):108 Story P, Zimmeck S, Ravichander A, Smullen D, Wang Z, Reidenberg J, Russell NC, Sadeh N (2019) Natural language processing for mobile app privacy compliance Koleck TA, Dreisbach C, Bourne PE, Bakken S (2019) Natural language processing of symptoms documented in free-text narratives of electronic health records: a systematic review. J Am Med Inform Assoc 26(4):364–379 Manogaran G, Baskar S, Shakeel PM, Chilamkurti N, Kumar R (2019) Analytics in real time surveillance video using two-bit transform accelerative regressive frame check. Multimed Tools Appl 15:12. https://doi.org/10.1007/s11042-019-7526-3 Tolba A, Elashkar E (2018) Soft computing approaches based bookmark selection and clustering techniques for social tagging systems. Clust Comput. https://doi.org/10.1007/s10586-018-2014-5 Rahim A, Qiu T, Ning Z, Wang J, Ullah N, Tolba A, Xia F (2019) Social acquaintance based routing in vehicular social networks. Future Gener Comput Syst 93:751–760 Said O, Tolba A (2018) Design and performance evaluation of mixed multicast architecture for internet of things environment. J Supercomput 74:3295–3328