Hệ thống lai cho khai thác dữ liệu không cân bằng

Microsystem Technologies - Tập 26 - Trang 3043-3047 - 2019
Zne-Jung Lee1, Chou-Yuan Lee1, So-Tsung Chou1, Wei-Ping Ma1, Fulan Ye1, Zhen Chen2,3
1School of Technology, Fuzhou University of International Studies and Trade, Fujian, China
2Academic Affairs, Fuzhou University of International Studies and Trade, Fujian, China
3Department of Database Technology and Data Mining, Angeles University Foundation, Angeles, Philippines

Tóm tắt

Trong kỷ nguyên bùng nổ thông tin, việc sản xuất và thu thập dữ liệu đang gia tăng một cách đáng kể. Khai thác dữ liệu là quá trình tìm kiếm thông tin có giá trị trong dữ liệu. Đối với dữ liệu không cân bằng, các lớp chiếm ưu thế có số lượng trường hợp nhiều hơn so với các lớp thiểu số. Khi dữ liệu phát triển với đặc tính không cân bằng, các lớp chiếm ưu thế sẽ nhận được sự chú ý chính và sẽ bỏ qua tầm quan trọng của các lớp thiểu số. Điều này khiến việc giải quyết các vấn đề này ngày càng khó khăn. Một trở ngại khác trong khai thác dữ liệu không cân bằng là sự thiếu hụt nguồn lực có kỹ năng, chẳng hạn như cơ chế phân tán. Do đó, việc giải quyết các vấn đề này bằng các thuật toán khai thác dữ liệu truyền thống như cây quyết định, rừng ngẫu nhiên và máy vector hỗ trợ là không dễ dàng. Trong bài báo này, một hệ thống lai dựa trên máy vector hỗ trợ và Apache Spark được đề xuất cho khai thác dữ liệu không cân bằng. Trong hệ thống được đề xuất, SVM với hai phương pháp được đưa ra để triển khai trên Apache Spark nhằm xử lý song song dữ liệu không cân bằng. Hai tập dữ liệu từ kho lưu trữ UCI được sử dụng để xác minh tính chính xác của hệ thống được đề xuất. Kết quả mô phỏng cho thấy rằng độ chính xác phân loại có thể được cải thiện đáng kể bởi hệ thống được đề xuất.

Từ khóa


Tài liệu tham khảo

Asuncion A, Newman DJ (2007) Uci machine learning repository. University of california, school of information and computer science, Irvine, CA. http://www.ics.uci.edu/~mlearn/MLRepository.html Blake CL, Merz CJ (1998) UCI repository of machine learning databases. University of California, Irvine, Dept. of Information and Computer Sciences Cherkassky V, Ma Y (2004) Practical selection of SVM parameters and noise estimation for SVM regression. Neural Netw 17(1):113–126 Devi D, Purkayastha B (2017) Redundancy-driven modified Tomek-link based undersampling: a solution to class imbalance. Pattern Recogn Lett 93:3–12 Fernández A et al (2018) Cost-sensitive learning. Learning from imbalanced data sets. Springer, Cham, pp 63–78 Gosain A, Sardana S (2019) Farthest SMOTE: a modified SMOTE approach. Computational intelligence in data mining. Springer, Singapore, pp 309–320 Gu Q et al (2008) Data mining on imbalanced data sets. IEEE Int Confer Adv Comput Theory Eng 1020–1024 Han H, Wang WY, Mao BH (2005) Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning. International conference on intelligent computing. Springer, Berlin, pp 878–887 Harrison P et al (2018) Selecting methods for ecosystem service assessment: a decision tree approach. Ecosyst Serv 29:481–498 He H, Garcia EA (2008) Learning from imbalanced data. IEEE Trans Knowl Data Eng 9:1263–1284 Hsu C W, Chang CC, Lin CJ (2003) A practical guide to support vector classification Kavitha M, Suriakala M (2017) Real time credit card fraud detection on huge imbalanced data using meta-classifiers. IEEE Int Confer Invent Comput Inform (ICICI) 881–887 Kim DS, Nguyen HN, Park JS (2005) Genetic algorithm to improve SVM based network intrusion detection system. In: IEEE 19th international conference on advanced information networking and applications (AINA’05), pp 155–158 Mason C et al (2018) Predicting engineering student attrition risk using a probabilistic neural network and comparing results with a backpropagation neural network and logistic regression. Res High Educ 59(3):382–400 Moosaei R, Safaei AA (2016) Classification of service delivery to airport passengers using data mining. Int J Adv Appl Sci 3(6):87–94 Sanabila HR, Jatmiko W (2018) Ensemble learning on large scale financial imbalanced data. In: IEEE 2018 international workshop on big data and information security (IWBIS), pp 93–98 Shanahan JG, Dai L (2015) Large scale distributed data science using apache spark. In: Proceedings of the 21th ACM SIGKDD international conference on knowledge discovery and data mining, pp 2323–2324 Shoro AG, Soomro TR (2015) Big data analysis: apache spark perspective. Glob J Comput Sci Technol Shyam R et al (2015) Apache spark a big data analytics platform for smart grid. Proc Technol 21:171–178 Speiser JL et al (2019) A random forest method for modeling clustered and longitudinal binary outcomes. Chemometr Intell Lab Syst 185:122–134 Sun Y, Wong AK, Kamel MS (2009) Classification of imbalanced data: a review. Int J Pattern Recognit Artif Intell 23(04):687–719 Tang Y et al (2009) SVMs modeling for highly imbalanced classification. IEEE Trans Syst Man Cybern Part B (Cybernetics) 39(1):281–288 Yan Y et al (2019) A parameter-free cleaning method for SMOTE in imbalanced classification. IEEE Access 7:23537–23548 Zhang J et al (2004) Learning rules from highly unbalanced data sets. IEEE Int Confer Data Mining (ICDM’04), 571–574 Zhang S et al (2018) Efficient KNN classification with different numbers of nearest neighbors. IEEE Trans Neural Netw Learn Syst 29(5):1774–1785