Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo

Hệ thống lai cho khai thác dữ liệu không cân bằng

Microsystem Technologies - Tập 26 - Trang 3043-3047 - 2019

Zne-Jung Lee¹, Chou-Yuan Lee¹, So-Tsung Chou¹, Wei-Ping Ma¹, Fulan Ye¹, Zhen Chen^2,3

¹School of Technology, Fuzhou University of International Studies and Trade, Fujian, China

²Academic Affairs, Fuzhou University of International Studies and Trade, Fujian, China

³Department of Database Technology and Data Mining, Angeles University Foundation, Angeles, Philippines

Tóm tắt

Trong kỷ nguyên bùng nổ thông tin, việc sản xuất và thu thập dữ liệu đang gia tăng một cách đáng kể. Khai thác dữ liệu là quá trình tìm kiếm thông tin có giá trị trong dữ liệu. Đối với dữ liệu không cân bằng, các lớp chiếm ưu thế có số lượng trường hợp nhiều hơn so với các lớp thiểu số. Khi dữ liệu phát triển với đặc tính không cân bằng, các lớp chiếm ưu thế sẽ nhận được sự chú ý chính và sẽ bỏ qua tầm quan trọng của các lớp thiểu số. Điều này khiến việc giải quyết các vấn đề này ngày càng khó khăn. Một trở ngại khác trong khai thác dữ liệu không cân bằng là sự thiếu hụt nguồn lực có kỹ năng, chẳng hạn như cơ chế phân tán. Do đó, việc giải quyết các vấn đề này bằng các thuật toán khai thác dữ liệu truyền thống như cây quyết định, rừng ngẫu nhiên và máy vector hỗ trợ là không dễ dàng. Trong bài báo này, một hệ thống lai dựa trên máy vector hỗ trợ và Apache Spark được đề xuất cho khai thác dữ liệu không cân bằng. Trong hệ thống được đề xuất, SVM với hai phương pháp được đưa ra để triển khai trên Apache Spark nhằm xử lý song song dữ liệu không cân bằng. Hai tập dữ liệu từ kho lưu trữ UCI được sử dụng để xác minh tính chính xác của hệ thống được đề xuất. Kết quả mô phỏng cho thấy rằng độ chính xác phân loại có thể được cải thiện đáng kể bởi hệ thống được đề xuất.

Từ khóa

Tài liệu tham khảo

Asuncion A, Newman DJ (2007) Uci machine learning repository. University of california, school of information and computer science, Irvine, CA. http://www.ics.uci.edu/~mlearn/MLRepository.html Blake CL, Merz CJ (1998) UCI repository of machine learning databases. University of California, Irvine, Dept. of Information and Computer Sciences Cherkassky V, Ma Y (2004) Practical selection of SVM parameters and noise estimation for SVM regression. Neural Netw 17(1):113–126 Devi D, Purkayastha B (2017) Redundancy-driven modified Tomek-link based undersampling: a solution to class imbalance. Pattern Recogn Lett 93:3–12 Fernández A et al (2018) Cost-sensitive learning. Learning from imbalanced data sets. Springer, Cham, pp 63–78 Gosain A, Sardana S (2019) Farthest SMOTE: a modified SMOTE approach. Computational intelligence in data mining. Springer, Singapore, pp 309–320 Gu Q et al (2008) Data mining on imbalanced data sets. IEEE Int Confer Adv Comput Theory Eng 1020–1024 Han H, Wang WY, Mao BH (2005) Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning. International conference on intelligent computing. Springer, Berlin, pp 878–887 Harrison P et al (2018) Selecting methods for ecosystem service assessment: a decision tree approach. Ecosyst Serv 29:481–498 He H, Garcia EA (2008) Learning from imbalanced data. IEEE Trans Knowl Data Eng 9:1263–1284 Hsu C W, Chang CC, Lin CJ (2003) A practical guide to support vector classification Kavitha M, Suriakala M (2017) Real time credit card fraud detection on huge imbalanced data using meta-classifiers. IEEE Int Confer Invent Comput Inform (ICICI) 881–887 Kim DS, Nguyen HN, Park JS (2005) Genetic algorithm to improve SVM based network intrusion detection system. In: IEEE 19th international conference on advanced information networking and applications (AINA’05), pp 155–158 Mason C et al (2018) Predicting engineering student attrition risk using a probabilistic neural network and comparing results with a backpropagation neural network and logistic regression. Res High Educ 59(3):382–400 Moosaei R, Safaei AA (2016) Classification of service delivery to airport passengers using data mining. Int J Adv Appl Sci 3(6):87–94 Sanabila HR, Jatmiko W (2018) Ensemble learning on large scale financial imbalanced data. In: IEEE 2018 international workshop on big data and information security (IWBIS), pp 93–98 Shanahan JG, Dai L (2015) Large scale distributed data science using apache spark. In: Proceedings of the 21th ACM SIGKDD international conference on knowledge discovery and data mining, pp 2323–2324 Shoro AG, Soomro TR (2015) Big data analysis: apache spark perspective. Glob J Comput Sci Technol Shyam R et al (2015) Apache spark a big data analytics platform for smart grid. Proc Technol 21:171–178 Speiser JL et al (2019) A random forest method for modeling clustered and longitudinal binary outcomes. Chemometr Intell Lab Syst 185:122–134 Sun Y, Wong AK, Kamel MS (2009) Classification of imbalanced data: a review. Int J Pattern Recognit Artif Intell 23(04):687–719 Tang Y et al (2009) SVMs modeling for highly imbalanced classification. IEEE Trans Syst Man Cybern Part B (Cybernetics) 39(1):281–288 Yan Y et al (2019) A parameter-free cleaning method for SMOTE in imbalanced classification. IEEE Access 7:23537–23548 Zhang J et al (2004) Learning rules from highly unbalanced data sets. IEEE Int Confer Data Mining (ICDM’04), 571–574 Zhang S et al (2018) Efficient KNN classification with different numbers of nearest neighbors. IEEE Trans Neural Netw Learn Syst 29(5):1774–1785

Scholar Hub - Công cụ hỗ trợ trích dẫn và phân tích khoa học Việt Nam

Scholar Hub là công cụ hỗ trợ trích dẫn và phân tích ảnh hưởng của các bài báo, công bố khoa học Việt Nam và Quốc tế.
ScholarHub KHÔNG đăng thông tin tổng hợp, KHÔNG đăng lại nội dung từ các trang báo chí Việt Nam hoặc trang thông tin điện tử khác tại Việt Nam.

Thông tin, cập nhật

Đăng ký Tạp chí tham gia Scholar Hub

Phản hồi ý kiến về Scholar Hub

Bài viết, nội dung cập nhật

Chủ đề khoa học

Website liên kết

Hệ thống CSDL Khoa học & Công nghệ SciBase

Phần mềm kiểm tra trùng lặp Kiểm Tra Tài Liệu

Phần mềm xuất bản tạp chí điện tử VOJS

Hệ thống hội thảo khoa học Việt Nam

Nền tảng trắc nghiệm và đề thi đa lĩnh vực LetQA

Thông tin liên hệ & hỗ trợ

Đơn vị chủ quản, phát triển và vận hành: Công ty Cổ phần Metis

Địa chỉ liên hệ: 26A Lê Đức Thọ, Phường Từ Liêm, Thành phố Hà Nội

Số giấy chứng nhận ĐKKD: 0109293202 cấp ngày 03/08/2020 tại Sở Kế hoạch và Đầu tư thành phố Hà Nội

Người quản lý và chịu trách nhiệm nội dung: Nguyễn Ngọc Sơn

Hotline: 0566.685.688

Email: [email protected]