Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo

Cây phân loại với phân chia mềm được tối ưu hóa cho việc xếp hạng

Computational Statistics - Tập 34 - Trang 763-786 - 2019

Jakub Dvořák¹

¹Institute of Computer Science, Academy of Sciences of the Czech Republic, Prague 8, Czech Republic

Tóm tắt

Chúng tôi xem xét việc làm mềm các phân chia trong cây phân loại được tạo ra từ dữ liệu số đa biến. Phương pháp này cải thiện chất lượng của việc xếp hạng các trường hợp thử nghiệm được đo bằng AUC. Một số cách để xác định các tham số làm mềm được giới thiệu và so sánh, bao gồm thuật toán làm mềm có trong các phương pháp tiêu chuẩn C4.5 và C5.0. Trong phần đầu của bài báo, một số cài đặt thả lỏng được xác định chỉ từ các khoảng của dữ liệu huấn luyện trong các nhánh của cây được khám phá. Các cây được làm mềm với các cài đặt này được sử dụng để nghiên cứu ảnh hưởng của việc sử dụng sự sửa đổi Laplace cùng với các phân chia mềm. Ở phần sau, chúng tôi giới thiệu các phương pháp sử dụng việc tối đa hóa hiệu suất của bộ phân loại trên tập huấn luyện trong miền của các tham số làm mềm. Thuật toán tối ưu hóa phi tuyến Nelder–Mead được sử dụng và nhiều hàm mục tiêu khác nhau được xem xét. Hàm mục tiêu đánh giá AUC trên tập huấn luyện được so sánh với các hàm tổng hợp qua các trường hợp huấn luyện một số biến đổi của lỗi điểm số. Nhiều tập dữ liệu từ kho dữ liệu UCI được sử dụng trong các thí nghiệm.

Từ khóa

#cây phân loại #phân chia mềm #tối ưu hóa #AUC #dữ liệu đa biến

Tài liệu tham khảo

Breiman L, Friedman J, Olshen R, Stone C (1984) Classification and regression trees. Wadsworth and Brooks, Monterey Carter C, Catlett J (1987) Assessing credit card applications using machine learning. IEEE Expert 2(3):71–79 Chen M, Ludwig SA (2013) Fuzzy decision tree using soft discretization and a genetic algorithm based feature selection method. In: 2013 World congress on nature and biologically inspired computing (NaBIC). IEEE, pp 238–244 Clémençon S, Depecker M, Vayatis N (2013) Ranking forests. J Mach Learn Res 14(1):39–73 Fawcett T (2006) An introduction to ROC analysis. Pattern Recognit Lett 27(8):861–874 Hanley JA, McNeil BJ (1982) The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology 143(1):29–36 Hüllermeier E, Vanderlooy S (2009) Why fuzzy decision trees are good rankers. Trans Fuzzy Syst 17(6):1233–1244 Janikow CZ, Kawa K (2005) Fuzzy decision tree FID. In: Proceedings of NAFIPS, pp 379–384 Jordan MI, Jacobs RA (1994) Hierarchical mixtures of experts and the EM algorithm. Neural Comput 6(2):181–214 Kumar GK, Viswanath P, Rao AA (2016) Ensemble of randomized soft decision trees for robust classification. Sādhanā 41(3):273–282 Leisch F, Dimitriadou E (2009) mlbench: Machine Learning Benchmark Problems. R package version 1.1-6 Liaw A, Wiener M (2002) Classification and regression by randomForest. R News 2(3):18–22 Lichman M (2013) UCI machine learning repository. University of California, School of Information and Computer Sciences, Irvine. http://archive.ics.uci.edu/ml. Accessed 3 Feb 2016 Nelder JA, Mead R (1965) A simplex method for function minimization. Comput J 7(4):308–313 Norouzi M, Collins MD, Johnson M, Fleet DJ, Kohli P (2015) Efficient non-greedy optimization of decision trees. In: Cortes C, Lawrence ND, Lee DD, Sugiyama M, Garnett R (eds) Advances in neural information processing systems. MIT Press Cambridge, pp 1729–1737 Olaru C, Wehenkel L (2003) A complete fuzzy decision tree technique. Fuzzy Sets Syst 138(2):221–254 Otero FE, Freitas AA, Johnson CG (2012) Inducing decision trees with an ant colony optimization algorithm. Appl Soft Comput 12(11):3615–3626 Quinlan JR (1993) C4.5: programs for machine learning. Morgan Kaufmann Publishers Inc., San Francisco Sofeikov KI, Tyukin IY, Gorban AN, Mirkes EM, Prokhorov DV, Romanenko IV (2014) Learning optimization for decision tree classification of non-categorical data with information gain impurity criterion. In: 2014 International joint conference on neural networks (IJCNN). IEEE, pp 3548–3555 Suárez A, Lutsko JF (1999) Globally optimal fuzzy decision trees for classification and regression. IEEE Trans Pattern Anal Mach Intell 21:1297–1311 Yıldız OT, İrsoy O, Alpaydın E (2016) Bagging soft decision trees. In: Holzinger A (ed) Machine learning for health informatics: state-of-the-art and future challenges. Springer, Cham, pp 25–36

Scholar Hub - Công cụ hỗ trợ trích dẫn và phân tích khoa học Việt Nam

Về chúng tôi

Scholar Hub là công cụ hỗ trợ trích dẫn và phân tích các bài báo, công bố khoa học Việt Nam. Công cụ trợ giúp người nghiên cứu, tạp chí, đơn vị nghiên cứu tra cứu, phân tích và thống kê dữ liệu nghiên cứu khoa học tại Việt Nam và quốc tế.
ScholarHub KHÔNG đăng thông tin tổng hợp, KHÔNG đăng lại nội dung từ các trang báo chí Việt Nam hoặc trang thông tin điện tử khác tại Việt Nam.

Thông tin, cập nhật

Đăng ký Tạp chí tham gia vào Scholar Hub

Phản hồi ý kiến về Scholar Hub

Bài viết, nội dung cập nhật

Chủ đề khoa học

Website liên kết

Phần mềm kiểm tra trùng lặp Kiểm Tra Tài Liệu

Phần mềm xuất bản tạp chí điện tử VOJS

Công cụ kiểm tra chính tả và thể thức Viver

Nền tảng trắc nghiệm và đề thi đa lĩnh vực LetQA