Khung nâng cao giá trị của các mô hình dự đoán dựa trên dữ liệu bằng cách làm phong phú sự khái quát hóa vấn đề bằng các đặc trưng mới

Neural Computing and Applications - Tập 28 - Trang 1515-1523 - 2016
Sérgio Moro1,2, Paulo Cortez3, Paulo Rita2
1Algoritmi Research Centre, University of Minho, Guimarães, Portugal
2Business Research Unit (BRU), Instituto Universitário de Lisboa (ISCTE-IUL), Lisboa, Portugal
3Department of Information Systems/ALGORITMI Research Centre, University of Minho, Guimarães, Portugal

Tóm tắt

Nhu cầu tận dụng tri thức thông qua khai thác dữ liệu đã thúc đẩy các doanh nghiệp trong việc tìm kiếm nhiều dữ liệu hơn. Tuy nhiên, có một khoảng cách giữa tính khả dụng của dữ liệu và việc ứng dụng tri thức được chiết xuất để cải thiện hỗ trợ ra quyết định. Thực tế cho thấy, nhiều dữ liệu không nhất thiết đồng nghĩa với các mô hình tiếp thị dựa trên dữ liệu tốt hơn, vì thường thì lĩnh vực vấn đề yêu cầu một sự khái quát hóa sâu hơn. Nhằm hướng tới sự khái quát hóa như vậy, chúng tôi đề xuất một khung công tác dựa trên ba chiến lược lựa chọn đặc trưng, trong đó, mục tiêu là khám phá các đặc trưng mới có thể làm tăng giá trị của dữ liệu bằng cách cung cấp sự khái quát hóa phong phú hơn cho lĩnh vực vấn đề. Các chiến lược này bao gồm cảnh ngộ tổng thể (ví dụ, các biến xã hội và kinh tế), đánh giá lịch sử quá khứ, và phân tách vấn đề chính thành các tiểu vấn đề thú vị hơn nhưng nhỏ hơn. Khung này được đánh giá thông qua một phân tích thực nghiệm cho một ứng dụng tiếp thị qua điện thoại của ngân hàng thực tế, với kết quả chứng minh lợi ích của cách tiếp cận này, khi diện tích dưới đường cong đặc trưng của bộ thu nhận hoạt động tăng lên qua từng giai đoạn, cải thiện mô hình trước đó về mặt hiệu suất dự đoán.

Từ khóa

#dữ liệu; khai thác dữ liệu; mô hình dự đoán; đặc trưng; khung công tác; hỗ trợ ra quyết định

Tài liệu tham khảo

Lee N, Greenley G (2008) The primacy of data? Eur J Mark 42(11/12):1141–1144 Chen H, Chiang RHL, Storey VC (2012) Business intelligence and analytics: from big data to big impact. MIS Q 36(4):1165–1188 Maklan S, Peppard J, Klaus P (2015) Show me the money: improving our understanding of how organizations generate return from technology-led marketing change. Eur J Mark 49(3/4):561–595 Bucklin R, Lehmann D, Little J (1998) From decision support to decision automation: a 2020 vision. Mark Lett 9(3):235–246 Wang F-Y (2012) A big-data perspective on AI: Newton, Merton, and analytics intelligence. IEEE Intell Syst 27(5):2–4 Holbrook MB, Hulbert JM (2002) Elegy on the death of marketing: never send to know why we have come to bury marketing but ask what you can do for your country churchyard. Eur J Mark 36(5/6):706–732 Sohrabi B, Mahmoudian P, Raeesi I (2012) A framework for improving e-commerce websites usability using a hybrid genetic algorithm and neural network system. Neural Comput Appl 21(5):1017–1029 Michalewicz Z, Schmidt M, Michalewicz M, Chiriac C (2005) Case study: an intelligent decision support system. IEEE Intell Syst 20(4):44–49 Liu H, Dougherty E, Dy JG, Torkkola K, Tuv E, Peng H, Ding C, Long F, Berens M, Parsons L et al (2005) Evolving feature selection. IEEE Intell Syst 20(6):64–76 Meiri R, Zahavi J (2006) Using simulated annealing to optimize the feature selection problem in marketing applications. Eur J Oper Res 171(3):842–858 Neto MTR, de Souza JC, Souki GQ (2011) Identifying variables that predict clients’ propensity to end their checking accounts. Int J Bank Mark 29(6):489–507 Saarenpaa J, Kolehmainen M, Mononen M, Niska H (2015) A data mining approach for producing small area statistics-based load profiles for distribution network planning. In: 2015 IEEE international conference on industrial technology (ICIT), IEEE. pp 1236–1240 Shaheen M, Shahbaz M, Guergachi A (2013) Context based positive and negative spatio-temporal association rule mining. Knowl Based Syst 37:261–273 Moro S, Cortez P, Rita P (2014) A data-driven approach to predict the success of bank telemarketing. Decis Support Syst 62:22–31 Li G-D, Yamaguchi D, Nagai M (2008) The development of stock exchange simulation prediction modeling by a hybrid grey dynamic model. Int J Adv Manuf Technol 36(1–2):195–204 Ching-Chin C, Ieng AIK, Ling-Ling W, Ling-Chieh K (2010) Designing a decision-support system for new product sales forecasting. Expert Syst Appl 37(2):1654–1665 Golmohammadi K, Zaiane OR (2012) Data mining applications for fraud detection in securities market. In: 2012 European intelligence and security informatics conference (EISIC), IEEE. pp 107–114 Miguéis VL, Camanho AS, Cunha JF (2012) Customer data mining for lifestyle segmentation. Expert Syst Appl 39(10):9359–9366 Fader PS, Hardie BGS, Lee KL (2005) RFM and CLV: using iso-value curves for customer base analysis. J Mark Res 42(4):415–430 Cheng C-H, Chen Y-S (2009) Classifying the segmentation of customer value via RFM model and RS theory. Expert Syst Appl 36(3):4176–4184 Yeh I-C, Yang K-J, Ting T-M (2009) Knowledge discovery on RFM model using Bernoulli sequence. Expert Syst Appl 36(3):5866–5871 Quinlan JR (1996) Learning decision tree classifiers. ACM Comput Surv (CSUR) 28(1):71–72 Liu Y, Schumann M (2005) Data mining feature selection for credit scoring models. J Oper Res Soc 56(9):1099–1108 Vergara JR, Estévez PA (2014) A review of feature selection methods based on mutual information. Neural Comput Appl 24(1):175–186 Cortez P, Cerdeira A, Almeida F, Matos T, Reis J (2009) Modeling wine preferences by data mining from physicochemical properties. Decis Support Syst 47(4):547–553 Kewley RH, Embrechts MJ, Breneman C (2000) Data strip mining for the virtual design of pharmaceuticals with neural networks. IEEE Trans Neural Netw 11(3):668–679 Cortez P, Embrechts MJ (2011) Opening black box data mining models using sensitivity analysis. In: 2011 IEEE symposium on computational intelligence and data mining (CIDM), IEEE. pp 341–348 Cortez P, Embrechts MJ (2013) Using sensitivity analysis and visualization techniques to open black box data mining models. Inf Sci 225:1–17 Moro S, Cortez P, Rita P (2015) Using customer lifetime value and neural networks to improve the prediction of bank deposit subscription in telemarketing campaigns. Neural Comput Appl 26(1):131–139 Cortez P (2010) Data mining with neural networks and support vector machines using the R/rminer tool. In: Perner P (ed) Advances in data mining - applications and theoretical aspects, 10th Industrial Conference on Data Mining (ICDM 2010), LNAI 6171. Springer, pp 572–583 Hastie T, Tibshirani R, Friedman J (2008) The elements of statistical learning: data mining, inference, and prediction, 2nd edn. Springer, New York Fawcett T (2006) An introduction to ROC analysis. Pattern Recognit Lett 27(8):861–874 Coppock DS (2002) Why lift? Data modeling and mining. Information management, pp 5329–5331. http://www.information-management.com/news/5329-1.html. Accessed 19 July 2013 Guyon I, Elisseeff A (2003) An introduction to variable and feature selection. J Mach Learn Res 3:1157–1182 Tang L, Thomas LC, Thomas S, Bozzetto JF (2007) It’s the economy stupid: modelling financial product purchases. Int J Bank Mark 25(1):22–38 Chen C-C (2014) Rfid-based intelligent shopping environment: a comprehensive evaluation framework with neural computing approach. Neural Comput Appl 25(7–8):1685–1697 Coussement K, Van den Bossche FAM, De Bock KW (2014) Data accuracy’s impact on segmentation performance: benchmarking RFM analysis, logistic regression, and decision trees. J Bus Res 67(1):2751–2758