Nghiên cứu về hành vi của một số phương pháp cân bằng dữ liệu huấn luyện máy học
Tóm tắt
Có nhiều khía cạnh có thể ảnh hưởng đến hiệu suất đạt được bởi các hệ thống học hiện tại. Đã có báo cáo rằng một trong những khía cạnh này liên quan đến sự mất cân bằng lớp, trong đó các ví dụ trong dữ liệu huấn luyện thuộc về một lớp nào đó vượt trội số lượng so với các ví dụ thuộc lớp khác. Trong tình huống này, xảy ra trong dữ liệu thế giới thực mô tả một sự kiện hiếm nhưng quan trọng, hệ thống học có thể gặp khó khăn trong việc học khái niệm liên quan đến lớp thiểu số. Trong nghiên cứu này, chúng tôi thực hiện một đánh giá thực nghiệm rộng rãi với mười phương pháp, trong đó ba phương pháp do các tác giả đề xuất, nhằm giải quyết vấn đề mất cân bằng lớp trong mười ba tập dữ liệu UCI. Các thí nghiệm của chúng tôi cung cấp bằng chứng rằng sự mất cân bằng lớp không làm giảm hiệu suất của các hệ thống học một cách hệ thống. Thực tế, vấn đề dường như liên quan đến việc học với quá ít ví dụ thuộc lớp thiểu số trong bối cảnh có các yếu tố phức tạp khác, chẳng hạn như sự chồng chéo lớp. Hai phương pháp do chúng tôi đề xuất xử lý trực tiếp các điều kiện này, kết hợp một phương pháp tăng mẫu đã biết với các phương pháp làm sạch dữ liệu nhằm tạo ra các cụm lớp được định nghĩa rõ hơn. Các thí nghiệm so sánh của chúng tôi cho thấy, nói chung, các phương pháp tăng mẫu cung cấp kết quả chính xác hơn so với các phương pháp giảm mẫu khi xem xét diện tích dưới đường cong ROC (AUC). Kết quả này dường như mâu thuẫn với các kết quả được công bố trước đó trong tài liệu. Hai phương pháp mà chúng tôi đề xuất, Smote + Tomek và Smote + ENN, đã trình bày kết quả rất tốt cho các tập dữ liệu có số lượng ví dụ dương nhỏ. Hơn nữa, phương pháp tăng mẫu ngẫu nhiên, một phương pháp rất đơn giản, lại rất cạnh tranh so với các phương pháp tăng mẫu phức tạp hơn. Vì các phương pháp tăng mẫu cung cấp kết quả hiệu suất rất tốt, chúng tôi cũng đo lường độ phức tạp cú pháp của các cây quyết định được tạo ra từ dữ liệu đã tăng mẫu. Kết quả của chúng tôi cho thấy rằng các cây này thường phức tạp hơn so với những cây được tạo ra từ dữ liệu gốc. Tăng mẫu ngẫu nhiên thường tạo ra sự gia tăng nhỏ nhất về số lượng quy tắc được tạo ra và Smote + ENN có sự gia tăng nhỏ nhất về số lượng điều kiện trung bình trên mỗi quy tắc, khi được so sánh giữa các phương pháp tăng mẫu được điều tra.
Từ khóa
Tài liệu tham khảo
Batista G. E. A. P. A., 2003, WOB, 35
Blake C. and Merz C. UCI Repository of Machine Learning Databases 1998. http://www.ics.uci.edu/~mlearn/MLRepository.html. Blake C. and Merz C. UCI Repository of Machine Learning Databases 1998. http://www.ics.uci.edu/~mlearn/MLRepository.html.
Chawla N. V., 2003, Workshop on Learning from Imbalanced Data Sets II
Chawla N. V., 2002, SMOTE: Synthetic Minority Over-sampling Technique. JAIR, 16, 321
Ciaccia P., 1997, VLDB, 426
Drummond C., 2003, Workshop on Learning from Imbalanced Data Sets II
Ferri C., 2002, J. Learning Decision Trees Using the Area Under the ROC Curve. In ICML (, 139
Hand D. J., 1997, John Wiley and Sons
Japkowicz N., 2003, Workshop on Learning from Imbalanced Data Sets II
Japkowicz N., 2002, The Class Imbalance Problem: A Systematic Study. IDA Journal, 6, 5
Kubat M., 1997, Addressing the Course of Imbalanced Training Sets: One-sided Selection. In ICML, 179
Ling C. X., 1998, Data Mining for Direct Mining: Problems and Solutions. In KDD, 73
Mitchell T. M. Machine Learning. McGraw-Hill 1997. Mitchell T. M. Machine Learning. McGraw-Hill 1997.
Provost F. J., 1997, KDD, 43
Quinlan J. R. C4.5 Programs for Machine Learning. Morgan Kaufmann CA 1988. Quinlan J. R. C4.5 Programs for Machine Learning. Morgan Kaufmann CA 1988.
Tomek, 1976, Two Modifications of CNN. IEEE Transactions on Systems Man and Communications SMC-6 (, 769
Weiss G. M., 2003, The Effect of Class Distribution on Tree Induction. JAIR, 19, 315
Wilson D. L., 1972, Communications, 2, 3