Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Cây phân loại với phân chia mềm được tối ưu hóa cho việc xếp hạng
Tóm tắt
Chúng tôi xem xét việc làm mềm các phân chia trong cây phân loại được tạo ra từ dữ liệu số đa biến. Phương pháp này cải thiện chất lượng của việc xếp hạng các trường hợp thử nghiệm được đo bằng AUC. Một số cách để xác định các tham số làm mềm được giới thiệu và so sánh, bao gồm thuật toán làm mềm có trong các phương pháp tiêu chuẩn C4.5 và C5.0. Trong phần đầu của bài báo, một số cài đặt thả lỏng được xác định chỉ từ các khoảng của dữ liệu huấn luyện trong các nhánh của cây được khám phá. Các cây được làm mềm với các cài đặt này được sử dụng để nghiên cứu ảnh hưởng của việc sử dụng sự sửa đổi Laplace cùng với các phân chia mềm. Ở phần sau, chúng tôi giới thiệu các phương pháp sử dụng việc tối đa hóa hiệu suất của bộ phân loại trên tập huấn luyện trong miền của các tham số làm mềm. Thuật toán tối ưu hóa phi tuyến Nelder–Mead được sử dụng và nhiều hàm mục tiêu khác nhau được xem xét. Hàm mục tiêu đánh giá AUC trên tập huấn luyện được so sánh với các hàm tổng hợp qua các trường hợp huấn luyện một số biến đổi của lỗi điểm số. Nhiều tập dữ liệu từ kho dữ liệu UCI được sử dụng trong các thí nghiệm.
Từ khóa
#cây phân loại #phân chia mềm #tối ưu hóa #AUC #dữ liệu đa biếnTài liệu tham khảo
Breiman L, Friedman J, Olshen R, Stone C (1984) Classification and regression trees. Wadsworth and Brooks, Monterey
Carter C, Catlett J (1987) Assessing credit card applications using machine learning. IEEE Expert 2(3):71–79
Chen M, Ludwig SA (2013) Fuzzy decision tree using soft discretization and a genetic algorithm based feature selection method. In: 2013 World congress on nature and biologically inspired computing (NaBIC). IEEE, pp 238–244
Clémençon S, Depecker M, Vayatis N (2013) Ranking forests. J Mach Learn Res 14(1):39–73
Fawcett T (2006) An introduction to ROC analysis. Pattern Recognit Lett 27(8):861–874
Hanley JA, McNeil BJ (1982) The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology 143(1):29–36
Hüllermeier E, Vanderlooy S (2009) Why fuzzy decision trees are good rankers. Trans Fuzzy Syst 17(6):1233–1244
Janikow CZ, Kawa K (2005) Fuzzy decision tree FID. In: Proceedings of NAFIPS, pp 379–384
Jordan MI, Jacobs RA (1994) Hierarchical mixtures of experts and the EM algorithm. Neural Comput 6(2):181–214
Kumar GK, Viswanath P, Rao AA (2016) Ensemble of randomized soft decision trees for robust classification. Sādhanā 41(3):273–282
Leisch F, Dimitriadou E (2009) mlbench: Machine Learning Benchmark Problems. R package version 1.1-6
Liaw A, Wiener M (2002) Classification and regression by randomForest. R News 2(3):18–22
Lichman M (2013) UCI machine learning repository. University of California, School of Information and Computer Sciences, Irvine. http://archive.ics.uci.edu/ml. Accessed 3 Feb 2016
Nelder JA, Mead R (1965) A simplex method for function minimization. Comput J 7(4):308–313
Norouzi M, Collins MD, Johnson M, Fleet DJ, Kohli P (2015) Efficient non-greedy optimization of decision trees. In: Cortes C, Lawrence ND, Lee DD, Sugiyama M, Garnett R (eds) Advances in neural information processing systems. MIT Press Cambridge, pp 1729–1737
Olaru C, Wehenkel L (2003) A complete fuzzy decision tree technique. Fuzzy Sets Syst 138(2):221–254
Otero FE, Freitas AA, Johnson CG (2012) Inducing decision trees with an ant colony optimization algorithm. Appl Soft Comput 12(11):3615–3626
Quinlan JR (1993) C4.5: programs for machine learning. Morgan Kaufmann Publishers Inc., San Francisco
Sofeikov KI, Tyukin IY, Gorban AN, Mirkes EM, Prokhorov DV, Romanenko IV (2014) Learning optimization for decision tree classification of non-categorical data with information gain impurity criterion. In: 2014 International joint conference on neural networks (IJCNN). IEEE, pp 3548–3555
Suárez A, Lutsko JF (1999) Globally optimal fuzzy decision trees for classification and regression. IEEE Trans Pattern Anal Mach Intell 21:1297–1311
Yıldız OT, İrsoy O, Alpaydın E (2016) Bagging soft decision trees. In: Holzinger A (ed) Machine learning for health informatics: state-of-the-art and future challenges. Springer, Cham, pp 25–36