Học Tích Cực cho Phân Tích Nhạy Cảm Đa Chiều với Ứng Dụng trong Mô Hình Sàng Lọc Bệnh

Journal of Healthcare Informatics Research - Tập 6 - Trang 317-343 - 2022
Mucahit Cevik1, Sabrina Angco1, Elham Heydarigharaei1, Hadi Jahanshahi1, Nicholas Prayogo1
1Toronto Metropolitan University, Toronto, Canada

Tóm tắt

Phân tích nhạy cảm là một khía cạnh quan trọng trong việc phát triển mô hình vì nó có thể được sử dụng để đánh giá mức độ tin cậy liên quan đến các kết quả của một nghiên cứu. Trong nhiều vấn đề thực tiễn, phân tích nhạy cảm liên quan đến việc đánh giá một số lượng lớn các tổ hợp tham số, điều này có thể đòi hỏi một khối lượng thời gian và tài nguyên lớn. Tuy nhiên, gánh nặng tính toán này có thể được tránh bằng cách xác định những tập con nhỏ hơn của các tổ hợp tham số có thể được sử dụng sau này để tạo ra các kết quả mong muốn cho các tổ hợp tham số khác. Trong nghiên cứu này, chúng tôi điều tra các phương pháp dựa trên học máy để tăng tốc độ phân tích nhạy cảm. Hơn nữa, chúng tôi áp dụng các phương pháp lựa chọn đặc trưng để xác định tầm quan trọng tương đối của các tham số mô hình định lượng về khả năng dự đoán của chúng đối với các kết quả. Cuối cùng, chúng tôi làm nổi bật hiệu quả của các chiến lược học tích cực trong việc cải thiện quy trình phân tích nhạy cảm bằng cách giảm tổng số lần chạy mô hình định lượng cần thiết để xây dựng một mô hình dự đoán hiệu suất cao. Các thử nghiệm của chúng tôi trên hai tập dữ liệu thu được từ phân tích nhạy cảm được thực hiện cho hai nghiên cứu mô hình sàng lọc bệnh chỉ ra rằng các phương pháp tổ hợp như Random Forests và XGBoost thường vượt trội hơn các thuật toán học máy khác trong nhiệm vụ dự đoán của phân tích nhạy cảm liên quan. Ngoài ra, chúng tôi nhận thấy rằng học tích cực có thể dẫn đến sự tăng tốc đáng kể trong phân tích nhạy cảm bằng cách cho phép lựa chọn các tổ hợp tham số hữu ích hơn (tức là, các trường hợp) để sử dụng cho các mô hình dự đoán.

Từ khóa

#phân tích nhạy cảm #học máy #học tích cực #lựa chọn đặc trưng #mô hình sàng lọc bệnh

Tài liệu tham khảo

Oakley JE, O’Hagan A (2004) Probabilistic sensitivity analysis of complex models: a Bayesian approach. J R Stat Soc Series B (Stat Methodol) 66 (3):751–769 Czitrom V (1999) One-factor-at-a-time versus designed experiments. The American Statistician 53(2):126–131 Claxton K, Sculpher M, McCabe C, Briggs A, Akehurst R, Buxton M, Brazier J, O’Hagan T (2005) Probabilistic sensitivity analysis for NICE technology assessment: not an optional extra. Health Econ 14(4):339–347 Saltelli A, Tarantola S (2002) On the relative importance of input factors in mathematical models: safety assessment for nuclear waste disposal. J Am Stat Assoc 97(459):702–709 Borgonovo E (2010) Sensitivity analysis with finite changes: An application to modified EOQ models. Eur J Oper Res 200(1):127–138 Razavi S, Jakeman A, Saltelli A, Prieur C, Iooss B, Borgonovo E, Plischke E, Piano SL, Iwanaga T, Becker W et al (2021) The Future of Sensitivity Analysis: An essential discipline for systems modeling and policy support. Environmental Modelling & Software 137:104954 Gupta H, Razavi S (2017) Challenges and future outlook of sensitivity analysis. Sensitivity Analysis in Earth Observation Modelling 397–415 Cevik M, Ergun MA, Stout NK, Trentham-Dietz A, Craven M, Alagoz O (2016) Using active learning for speeding up calibration in simulation models. Med Dec Making 36(5):581–593 Borgonovo E, Plischke E (2016) Sensitivity analysis: A review of recent advances. Eur J Oper Res 248(3):869–887 Pfingsten T (2006) Bayesian active learning for sensitivity analysis. In: European conference on machine learning. Springer, 353–364 Chen Q, Ayer T, Chhatwal J (2017) Sensitivity analysis in sequential decision models: a probabilistic approach. Med Dec Making 37(2):243–252 Zhang Y, Wu H, Denton BT, Wilson JR, Lobo JM (2019) Probabilistic sensitivity analysis on Markov models with uncertain transition probabilities: An application in evaluating treatment decisions for type 2 diabetes. Health Care Management Science 22(1):34–52 Settles B (2009a) Active Learning Literature Survey: Computer sciences technical report 1648 university of Wisconsin–Madison Burbidge R, Rowland JJ, King RD (2007) Active learning for regression based on query by committee. In: Yin H., Tino P., Corchado E., Byrne W., Yao X. (eds) Intelligent data engineering and automated learning - IDEAL 2007. ISBN 978-3-540-77226-2. Springer, Berlin, pp 209–218 Figueroa RL, Zeng-Treitler Q, Ngo LH, Goryachev S, Wiechmann EP (2012) Active learning for clinical text classification: is it better than random sampling?. J Am Med Inform Assoc 19(5):809–816 Lu H, Kocaguneli E, Cukic B (2014) Defect prediction between software versions with active learning and dimensionality reduction. In: 2014 IEEE 25Th international symposium on software reliability engineering. IEEE, 312–322 Settles B (2009b) Active learning literature survey, Tech. Rep. University of Wisconsin-Madison Department of Computer Sciences Seung HS, Opper M, Sompolinsky H (1992) Query by committee. In: Proceedings of the fifth annual workshop on computational learning theory, COLT ’92. ISBN 0-89791-497-X. https://doi.org/10.1145/130385.130417. ACM, New York, pp 287–294 Freund Y, Seung HS, Shamir E, Tishby N (1997) Selective sampling using the query by committee algorithm. Mach Learn 28(2):133–168 Settles B (2012) Active learning. Synthesis Lectures on Artificial Intelligence and Machine Learning 6(1):1–114 Kee S, del Castillo E, Runger G (2018) Query-by-committee improvement with diversity and density in batch active learning. Inf Sci 454:401–418 Wang M, Min F, Zhang Z-H, Wu Y-X (2017) Active learning through density clustering. Expert Syst Appl 85:305–317 C Cameron A, Windmeijer FAG (1996) R-squared measures for count data regression models with applications to health-care utilization. Journal of Business & Economic Statistics 14(2):209–220. ISSN 07350015. http://www.jstor.org/stable/1392433 Sandikci B., Cevik M., Schacht D. (2020) Screening for Breast Cancer: The Role of Supplemental Tests and Breast Density Information, Chicago Booth Research Paper (18-03) Fryback DG, Stout NK, Rosenberg MA, Trentham-Dietz A, Kuruchittham V, Remington PL (2006) Chapter 7: The Wisconsin breast cancer epidemiology simulation model. JNCI Monographs 2006(36):37–47 Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, Blondel M, Prettenhofer P, Weiss R, Dubourg V et al (2011) Scikit-learn: Machine learning in Python. J Mach Learn Res 12(Oct):2825–2830 Wu D (2018) Pool-based sequential active learning for regression. IEEE Transactions on Neural Networks and Learning Systems 30 (5):1348–1359