Một nghiên cứu chung về các phương pháp xử lý sai phân loại và tập dữ liệu không cân bằng ảnh hưởng đến hiệu suất của mạng nơ-ron

Neural Computing and Applications - Tập 18 - Trang 689-706 - 2009
Jyh-shyan Lan1, Victor L. Berardi2,3, B. Eddy Patuwo2, Michael Hu2
1Providence University, Taichung, Taiwan
2Graduate School of Management, Kent State University, Kent, USA
3Canton, USA

Tóm tắt

Hai yếu tố quan trọng ảnh hưởng đến hiệu suất của mô hình phân loại là dữ liệu không cân bằng và hậu quả chi phí sai phân loại không đồng đều. Đây là những yếu tố đặc biệt quan trọng đối với các mô hình mạng nơ-ron được phát triển để ước tính xác suất hậu nghiệm của việc thuộc về nhóm, được sử dụng trong các quyết định phân loại. Bài báo này khám phá các vấn đề liên quan đến chi phí sai phân loại không đối xứng và kích thước nhóm không cân bằng ảnh hưởng đến hiệu suất phân loại của mạng nơ-ron bằng cách sử dụng phương pháp dữ liệu giả có khả năng tạo ra các bộ dữ liệu phức tạp hơn so với những gì được sử dụng trong các nghiên cứu trước đây và bổ sung thêm các hiểu biết mới về vấn đề này cũng như kết quả. Một phép đo hiệu suất khác, có khả năng đo lường một cách trực tiếp tính nhất quán của hiệu suất phân loại với quy tắc quyết định Bayes, được sử dụng. Kết quả cho thấy cả chi phí sai phân loại không đối xứng và kích thước nhóm không cân bằng đều có tác động đáng kể đến hiệu suất phân loại của mạng nơ-ron, cả độc lập và thông qua ảnh hưởng tương tác. Những vấn đề này không phải lúc nào cũng có thể trực giác; chúng bổ sung cho các phát hiện trước đó và nêu ra những vấn đề cần xem xét trong tương lai.

Từ khóa

#mạng nơ-ron #chi phí sai phân loại không đối xứng #dữ liệu không cân bằng #hiệu suất phân loại #quy tắc quyết định Bayes

Tài liệu tham khảo

Barnard E, Botha E (1993) Backpropagation uses prior information efficiently. IEEE Trans Neural Netw 4(5):794–802. doi:10.1109/72.248457 Berardi VL, Patuwo BE, Hu M (2004) A principled approach for building and evaluating neural network classifiers for e-commerce applications. Decis Support Syst 38(2):233–246. doi:10.1016/S0167-9236(03)00093-9 Berardi VL, Patuwo BE, Hu M, Kline DM (2007) Using artificial data to access neural network classification performance. Technical Report Berardi VL, Zhang GP (1999) The effect of misclassification costs on neural network classifiers. Decis Sci 30(3):659–682. doi:10.1111/j.1540-5915.1999.tb00902.x Chawla N, Bowyer K, Hall L, Kegelmeyer W (2002) SMOTE: synthetic minority over-sampling technique. J Artif Intell Res 16:321–357 Chawla N, Japkowicz N, Kolcz A (eds) (2004) Special issue on learning from imbalanced datasets. SIGKDD 6(1):ACM Press Cybenko G (1989) Approximation by superposition of a sigmoidal function, mathematics of control, signals, and systems. 2:303–314 Duda RO, Hart PE (1973) Pattern classification and scene analysis. Wiley, New York Elazmeh W, Japkowicz N, Matwin S (2006) A framework for measuring classification difference with imbalance (technical report ws-06-06). AAAI press, Menlo Park Fawcett T, Provost F (1996) Combining data mining and machine learning for effective user profile. Proceedings of the 2nd international conference on knowledge discovery and data mining. pp 8–13 Fisher RA (1936) The use of multiple measurements in taxonomic problems. Ann Eugen 7:179–188 Geman S, Bienenstock E, Doursat R (1992) Neural networks and the bias/variance dilemma. Neural Comput 4(1):1–58 Holte RC, Acker LE, Porter BW (1989) Concept learning and the accuracy of small disjuncts. Proceedings of the 11th international joint conference on artificial intelligence. Morgan Kaufmann, Detroit, pp 813–818 Hornik K (1991) Approximation capabilities of multilayer feed-forward networks. Neural Netw 4:251–257. doi:10.1016/0893-6080(91)90009-T Hornik K, Stinchcombe M, White H (1989) Multilayer feed-forward networks are universal approximators. Neural Netw 2:359–366. doi:10.1016/0893-6080(89)90020-8 Hung MS, Hu MY, Patuwo BE, Shanker M (1996) Estimating posterior probabilities in classification problems with neural networks. Int J Comput Intell Organ 1:49–60 Japkowicz N (2000) Learning from imbalanced data sets: a comparison of various strategies. In: Japkowicz N (ed) Proceedings of the AAAI 2000 workshop on learning from imbalanced data sets. AAAI Press, Menlo Park Japkowicz N, Stephen S (2002) The class imbalance problem: a systematic study. Intell Data Anal 6(5):429–449 Jo T, Japkowicz N (2004) Class imbalances versus small disjuncts. SIGKDD Explor Newsl 6(1):40–49. doi:10.1145/1007730.1007737 Kline DM, Berardi VL (2005) Revisiting squared-error and cross-entropy functions for training neural network classifiers. Neural computing and applications. (in press) Kohers G, Rakes TR, Rees LP (1996) Predicting weekly portfolio returns with the use of composite models: a comparison of neural networks and traditional composite models. Proceedings of the 1996 annual meeting of the decision sciences institute, Atlanta, pp 1332–1334 Kubat M, Holte R, Matwin S (1998) Machine learning for the detection of oil spills in satellite radar images. Mach Learn 30:195–215. doi:10.1023/A:1007452223027 Lowe D, Webb AR (1990) Exploiting prior knowledge in network optimization: an illustration from medical prognosis. Network 1(3):299–323 Lowe D, Webb AR (1991) Optimized feature extraction and the Bayes decision in feed-forward classifier networks. IEEE Trans Pattern Anal Mach Intell 13(4):355–364. doi:10.1109/34.88570 Maloof M (2003) Learning when data sets are imbalanced and when costs are unequal. Workshop on ICML 2003 Mazurowski M, Habas P, Zurada J, Lo J, Baker J, Tourassi G (2008) Training neural network classifiers for medical decision making: the effects of imbalanced datasets on classification performance. Neural Netw (in press) Pearson R, Goney G, Shwaber J (2003) Imbalanced clustering for microarray time- series. Proceedings of the ICML 2003 workshop on learning from imbalanced data sets Philipoom PR, Wiegmann L, Rees LP (1997) Cost-based due-date assignment with the use of classical and neural network approaches. Nav Res Logist 44(1):825–845 Provost F, Fawcett T (2001) Robust classification for imprecise environments. Mach Learn 42(3):203–231 Quinlan (1991) Improved estimates for the accuracy of small disjuncts. Mach Learn 6(1):93 Richard MD, Lippmann RP (1991) Neural network classifiers estimate Bayesian posterior probabilities. Neural Comput 3:461–483. doi:10.1162/neco.1991.3.4.461 Salchenberger LM, Cinar EM, Lash NA (1992) Neural networks: a new tool for predicting thrift failures. Decis Sci 23(4):899–916. doi:10.1111/j.1540-5915.1992.tb00425.x Swets J, Pickett R (1982) Evaluation of diagnostic systems: methods from signal detection theory. Academic Press, New York Tango T (1998) Equivalence test and confidence interval for the difference in proportions for the paired-sample design. Stat Med 17:891–908. doi:10.1002/(SICI)1097-0258(19980430)17:8<891::AID-SIM780>3.0.CO;2-B Visa S, Ralescu A (2003) Learning from imbalanced and overlapped data using fuzzy sets. Proceedings of ICML 2003 workshop: learning with imbalanced data sets II, pp 97–104 Weiss GM (1995) Learning with rare case and small disjuncts. Proceedings of the 17th international conference on machine learning. pp 558–565 Weiss GM, Hirsh H (2000) A quantitative study of small disjuncts. Proceedings of the 17th national conference on artificial intelligence. AAAI Press, Menlo Park, pp 665–670 Wu G, Chang EY (2003) Class-boundary alignment for imbalanced dataset learning. Proceedings of the ICML 2003 workshop on learning from imbalanced data sets Zhou Z-Z, Liu X-Y (2006) Training cost-sensitive neural networks with methods addressing the class imbalance problem. IEEE Trans Knowl Data Eng 18(1):63–77. doi:10.1109/TKDE.2006.17