Nghiên cứu về hành vi của một số phương pháp cân bằng dữ liệu huấn luyện máy học

Association for Computing Machinery (ACM) - Tập 6 Số 1 - Trang 20-29 - 2004
Gustavo E. A. P. A. Batista1, Ronaldo C. Prati1, Maria Carolina Monard1
1Instituto de Ciências Matemáticas e de Computação, São Carlos - SP, Brazil

Tóm tắt

Có nhiều khía cạnh có thể ảnh hưởng đến hiệu suất đạt được bởi các hệ thống học hiện tại. Đã có báo cáo rằng một trong những khía cạnh này liên quan đến sự mất cân bằng lớp, trong đó các ví dụ trong dữ liệu huấn luyện thuộc về một lớp nào đó vượt trội số lượng so với các ví dụ thuộc lớp khác. Trong tình huống này, xảy ra trong dữ liệu thế giới thực mô tả một sự kiện hiếm nhưng quan trọng, hệ thống học có thể gặp khó khăn trong việc học khái niệm liên quan đến lớp thiểu số. Trong nghiên cứu này, chúng tôi thực hiện một đánh giá thực nghiệm rộng rãi với mười phương pháp, trong đó ba phương pháp do các tác giả đề xuất, nhằm giải quyết vấn đề mất cân bằng lớp trong mười ba tập dữ liệu UCI. Các thí nghiệm của chúng tôi cung cấp bằng chứng rằng sự mất cân bằng lớp không làm giảm hiệu suất của các hệ thống học một cách hệ thống. Thực tế, vấn đề dường như liên quan đến việc học với quá ít ví dụ thuộc lớp thiểu số trong bối cảnh có các yếu tố phức tạp khác, chẳng hạn như sự chồng chéo lớp. Hai phương pháp do chúng tôi đề xuất xử lý trực tiếp các điều kiện này, kết hợp một phương pháp tăng mẫu đã biết với các phương pháp làm sạch dữ liệu nhằm tạo ra các cụm lớp được định nghĩa rõ hơn. Các thí nghiệm so sánh của chúng tôi cho thấy, nói chung, các phương pháp tăng mẫu cung cấp kết quả chính xác hơn so với các phương pháp giảm mẫu khi xem xét diện tích dưới đường cong ROC (AUC). Kết quả này dường như mâu thuẫn với các kết quả được công bố trước đó trong tài liệu. Hai phương pháp mà chúng tôi đề xuất, Smote + Tomek và Smote + ENN, đã trình bày kết quả rất tốt cho các tập dữ liệu có số lượng ví dụ dương nhỏ. Hơn nữa, phương pháp tăng mẫu ngẫu nhiên, một phương pháp rất đơn giản, lại rất cạnh tranh so với các phương pháp tăng mẫu phức tạp hơn. Vì các phương pháp tăng mẫu cung cấp kết quả hiệu suất rất tốt, chúng tôi cũng đo lường độ phức tạp cú pháp của các cây quyết định được tạo ra từ dữ liệu đã tăng mẫu. Kết quả của chúng tôi cho thấy rằng các cây này thường phức tạp hơn so với những cây được tạo ra từ dữ liệu gốc. Tăng mẫu ngẫu nhiên thường tạo ra sự gia tăng nhỏ nhất về số lượng quy tắc được tạo ra và Smote + ENN có sự gia tăng nhỏ nhất về số lượng điều kiện trung bình trên mỗi quy tắc, khi được so sánh giữa các phương pháp tăng mẫu được điều tra.

Từ khóa


Tài liệu tham khảo

Batista G. E. A. P. A., 2003, WOB, 35

10.1023/A:1007515423169

Blake C. and Merz C. UCI Repository of Machine Learning Databases 1998. http://www.ics.uci.edu/~mlearn/MLRepository.html. Blake C. and Merz C. UCI Repository of Machine Learning Databases 1998. http://www.ics.uci.edu/~mlearn/MLRepository.html.

Chawla N. V., 2003, Workshop on Learning from Imbalanced Data Sets II

Chawla N. V., 2002, SMOTE: Synthetic Minority Over-sampling Technique. JAIR, 16, 321

Ciaccia P., 1997, VLDB, 426

10.1145/312129.312220

Drummond C., 2003, Workshop on Learning from Imbalanced Data Sets II

Ferri C., 2002, J. Learning Decision Trees Using the Area Under the ROC Curve. In ICML (, 139

Hand D. J., 1997, John Wiley and Sons

10.1109/TIT.1968.1054155

Japkowicz N., 2003, Workshop on Learning from Imbalanced Data Sets II

Japkowicz N., 2002, The Class Imbalance Problem: A Systematic Study. IDA Journal, 6, 5

Kubat M., 1997, Addressing the Course of Imbalanced Training Sets: One-sided Selection. In ICML, 179

Ling C. X., 1998, Data Mining for Direct Mining: Problems and Solutions. In KDD, 73

Mitchell T. M. Machine Learning. McGraw-Hill 1997. Mitchell T. M. Machine Learning. McGraw-Hill 1997.

10.1007/978-3-540-24694-7_32

Provost F. J., 1997, KDD, 43

Quinlan J. R. C4.5 Programs for Machine Learning. Morgan Kaufmann CA 1988. Quinlan J. R. C4.5 Programs for Machine Learning. Morgan Kaufmann CA 1988.

10.1145/7902.7906

Tomek, 1976, Two Modifications of CNN. IEEE Transactions on Systems Man and Communications SMC-6 (, 769

Weiss G. M., 2003, The Effect of Class Distribution on Tree Induction. JAIR, 19, 315

Wilson D. L., 1972, Communications, 2, 3

10.1023/A:1007626913721

10.1145/502512.502540