Mô Hình Tổng Quát Cho Khai Thác Dữ Liệu Dự Đoán

Information Systems Frontiers - Tập 4 - Trang 179-186 - 2002
James V. Hansen1, James B. McDonald2
1Marriott School of Management, Brigham Young University, Provo, USA
2Department of Economics, Brigham Young University, Provo, USA

Tóm tắt

Bài báo này mô tả một mô hình linh hoạt cho việc khai thác dữ liệu dự đoán, EGB2, tối ưu hóa trong không gian tham số để phù hợp dữ liệu với một họ mô hình dựa trên tiêu chí xác suất tối đa. Bài báo cũng chỉ ra cách EGB2 có thể tích hợp chi phí không đối xứng của các lỗi loại I và loại II, qua đó giảm thiểu chi phí phân loại sai kỳ vọng. Quan trọng hơn, đã được chỉ ra rằng các phương pháp tính toán ước lượng xác suất tối đa tiêu chuẩn thường không nhất quán khi áp dụng cho dữ liệu mẫu có tỷ lệ nhãn khác với tỷ lệ mà có trong vũ trụ từ đó mẫu được rút ra. Chúng tôi cho thấy cách một ước lượng theo chọn lựa dựa trên trọng số đóng góp của mỗi quan sát vào hàm log-xác suất có thể góp phần vào sự nhất quán của ước lượng và cách tính năng này có thể được thực hiện trong EGB2.

Từ khóa

#Khai thác dữ liệu #Mô hình EGB2 #Chi phí phân loại sai #Ước lượng xác suất tối đa.

Tài liệu tham khảo

Amemiya A. Advanced Econometrics. Cambridge, MA: Harvard University Press, 1985. Bar Niv R, McDonald J. Identifying financial distress in the insurance industry:Asynthesis of methodological and empirical issues. Journal of Risk and Insurance 1992;59:543–574. Bell T, Szykowny S, Willingham J. Assessing the likelihood of fraudulent financial reporting: A cascaded logit approach. Working paper, KPMG Peat Marwick, 1993. Clarke D, McDonald J. Generalized bankruptcy models applied to predicting consumer credit behavior. Journal of Economics and Business 1992;44:47–62. Dawes R. The robust beauty of improper linear models in decision making. American Psychologist 1979;34:571–582. Glymour C, Madigan D, Pregibon D, Smyth P. Statistical themes and lessons for data mining. Data Mining and Knowledge Discovery 1997;1:11–28. Hansen J, McDonald J, Stice J. Artificial intelligence and generalized qualitative-response models: An empirical test on two audit decision-making domains. Decision Sciences 1992;23:708–723. Hassoun M. Fundamentals of Artificial Neural Networks. Cambridge, MA: MIT Press, 1995. Johnson E, Meyer R, Ghose S. When choice models fails: Compensatory models in efficient sets. Working paper, Graduate School of Industrial Administration, Carnegie-Mellon University, 1985. Kalbfleisch J, Prentice R. The Statistical Analysis of Failure Times. New York: Wiley, 1980. Kearns M, Vazirani U. An Introduction to Computational Learning Theory. Cambridge, MA: The MIT Press, 1994. Libby R. Accounting and Human Information Processing: Theory and Applications. Englewood Cliffs, NJ: Prentice-Hall, 1981. Manski C, Lerman S. The estimation of choice probabilities from choice based samples. Econometrica 1977;45:1977–1988. McDonald J. Some generalized functions for the size distribution of income. Econometrica 1984;52:647–663. McDonald J, White S. A comparison of some robust, adaptive, and partially adaptive estimators of regression models. Econometric Reviews 1993;12:103–124. McDonald J, Xu Y. A generalization of the beta distribution with applications. Journal of Econometrics 1995;66:133–152. Errata 1995;69:427–428. Payne J. Task complexity and contingent processing in decision making: An information search and protocol analysis. Organizational Behavior and Human Performance 1976;16:366–387. Quandt R. Computational problems and methods. In: Handbook of Econometrics, Ch. 12, Vol. 1, 1983:699–764. Rainville ED. Special Functions. New York: MacMillan, 1960. Shavlik J, Dietterich T. Introduction. In: Shavlik J, Dietterich T, eds. Readings in Machine Learning. San Mateo, CA: Morgan Kaufmann Publishers, 1991. Stice J. Using financial and market information to identify preengagement factors associated with lawsuits against auditors. The Accounting Review 1991;66:516–534. Weiss S, Kulikowski C. Computer Systems that Learn. San Mateo, CA: Morgan Kaufmann Publishers, 1991.