Dự đoán sớm và chính xác bệnh tiểu đường dựa trên lựa chọn đặc trưng FCBF và SMOTE

Amit Kishor1, Chinmay Chakraborty2
1Department of Computer Science and Engineering, Swami Vivekanand Subharti University, Meerut, India
2Department of Electronics and Communication Engineering, BIT, Mesra, Mesra, India

Tóm tắt

Bệnh tiểu đường là một rối loạn tăng đường huyết mãn tính. Mỗi năm, hàng trăm triệu người trên toàn thế giới mắc bệnh tiểu đường. Sự hiện diện của các đặc trưng không liên quan và một tập dữ liệu không cân bằng là những vấn đề quan trọng trong việc đào tạo mô hình. Sự sẵn có của hồ sơ y tế của bệnh nhân cung cấp thông tin về triệu chứng, đặc điểm cơ thể và giá trị xét nghiệm lâm sàng có thể được sử dụng trong nghiên cứu sinh thống kê nhằm xác định các mẫu hoặc đặc điểm không thể phát hiện bởi thực tiễn hiện tại. Công trình này đề xuất một mô hình chăm sóc sức khỏe dựa trên máy học để phát hiện bệnh tiểu đường một cách chính xác và sớm. Năm bộ phân loại máy học như hồi quy logistic, k-láng giềng gần nhất, Naïve Bayes, rừng ngẫu nhiên và máy vector hỗ trợ được sử dụng. Kỹ thuật lựa chọn đặc trưng dựa trên tương quan nhanh được sử dụng để loại bỏ các đặc trưng không liên quan. Kỹ thuật tổng hợp thiểu số quá mức được sử dụng để cân bằng tập dữ liệu không cân bằng. Mô hình được đánh giá bằng bốn chỉ số đo lường hiệu suất: độ chính xác, độ nhạy, độ đặc hiệu và diện tích dưới đường cong (AUC). Kết quả thực nghiệm cho thấy cần ít đặc trưng liên quan để nâng cao độ chính xác của mô hình đã phát triển. Bộ phân loại RF đạt được độ chính xác, độ nhạy, độ đặc hiệu và AUC cao nhất lần lượt là 97,81%, 99,32%, 98,86% và 99,35%.

Từ khóa

#bệnh tiểu đường #máy học #lựa chọn đặc trưng #hồi quy logistic #rừng ngẫu nhiên #dữ liệu không cân bằng

Tài liệu tham khảo

Alam TM, Iqbal MA, Ali Y, Wahab A, Ijaz S, Baig TI et al (2019) A model for early prediction of diabetes. Inf Med Unlocked 16:100204 Ali L, Zhu C, Zhou M, Liu Y (2019a) Early diagnosis of Parkinson’s disease from multiple voice recordings by simultaneous sample and feature selection. Expert Syst Appl 137:22–28 Ali L, Zhu C, Zhang Z, Liu Y (2019b) Automated detection of Parkinson’s disease based on multiple types of sustained phonations using linear discriminant analysis and genetically optimized neural network. IEEE J Trans Eng Health Med 7:1–10 Chen S, Zhang L, Tang Y, Shen C, Kumar R, Yu K et al (2020) Indoor temperature monitoring using wireless sensor networks: a SMAC application in smart cities. Sustain Cities Soc 61:102333 Chinmay C (2019) Computational approach for chronic wound tissue characterization. Inf Med Unlocked 17:1–10. https://doi.org/10.1016/j.imu.2019.100162 Chinmay C, Arij NA (2021) Intelligent internet of things and advanced machine learning techniques for COVID-19. EAI Endorsed Trans Pervasive Health Technol. https://doi.org/10.4108/eai.28-1-2021.168505 Chinmay C, Gupta B, Ghosh SK (2015) Chronic wound tissue characterization under telemedicine framework. IEEE Healthcom 2015, pp 569–573 Feng C, Yu K, Bashir AK, Al-Otaibi YD, Lu Y, Chen S, Zhang D (2021) Efficient and secure data sharing for 5G flying drones: a blockchain-enabled approach. IEEE Netw 35(1):130–137 Fiarni C, Sipayung EM, Maemunah S (2019) Analysis and prediction of diabetes complication disease using data mining algorithm. Proc Comput Sci 161:449–457 International Diabetes Federation (2019) IDF diabetes atlas, 9th edn. International Diabetes Federation, Brussels Ijaz MF, Alfian G, Syafrudin M, Rhee J (2018) Hybrid prediction model for type 2 diabetes and hypertension using DBSCAN-based outlier detection, synthetic minority over sampling technique (SMOTE), and random forest. Appl Sci 8(8):1325 Kandhasamy JP, Balamurali SJPCS (2015) Performance analysis of classifier models to predict diabetes mellitus. Procedia Computer Science 47:45–51 Kaur H, Kumari V (2020) Predictive modelling and analytics for diabetes using a machine learning approach. Appl Comput Inf. https://doi.org/10.1016/j.aci.2018.12.004 Kishor A, Chakraborty C, Jeberson W (2020) A novel fog computing approach for minimization of latency in healthcare using machine learning. Int J Interact Multimed Artif Intell 1:1. https://doi.org/10.9781/ijimai.2020.12.004 Kishor A, Chakraborty C, Jeberson W (2021) Reinforcement learning for medical information processing over heterogeneous networks. Multimed Tools Appl. https://doi.org/10.1007/s11042-021-10840-0 Le TM, Vo TM, Pham TN, Dao SVT (2021) A novel wrapper-based feature selection for early diabetes prediction enhanced with a metaheuristic. IEEE Access 9:7869–7884 Li H, Yu K, Liu B, Feng C, Qin Z, Srivastava G (2021) An efficient ciphertext-policy weighted attribute-based encryption for the internet of health things. IEEE J Biomed Health Inf. https://doi.org/10.1109/JBHI.2021.3075995 Lukmanto RB, Nugroho A, Akbar H (2019) Early detection of diabetes mellitus using feature selection and fuzzy support vector machine. Proc Comput Sci 157:46–54 Muhammad Y, Tahir M, Hayat M, Chong KT (2020) Early and accurate detection and diagnosis of heart disease using intelligent computational model. Sci Rep 10(1):1–17 Nadesh RK, Arivuselvan K (2020) Type 2: diabetes mellitus prediction using deep neural networks classifier. Int J Cogn Comput Eng 1:55–61 Nai-arun N, Moungmai R (2015) Comparison of classifiers for the risk of diabetes prediction. Proc Comput Sci 69:132–142 Nilashi M, Ibrahim O, Dalvi M, Ahmadi H, Shahmoradi L (2017) Accuracy improvement for diabetes disease classification: a case on a public medical dataset. Fuzzy Inf Eng 9(3):345–357 Perveen S, Shahbaz M, Guergachi A, Keshavjee K (2016) Performance analysis of data mining classification techniques to predict diabetes. Proc Comput Sci 82:115–121 Saeedi P, Petersohn I, Salpea P, Malanda B, Karuranga S, Unwin N, Colagiuri S, Guariguata L, Motala AA, Ogurtsova K, Shaw JE, Bright D, Williams R (2019) IDF Diabetes Atlas Committee. Global and regional diabetes prevalence estimates for 2019 and projections for 2030 and 2045: results from the International Diabetes Federation Diabetes Atlas, 9th edn. Diabetes Res Clin Pract 157:107843. https://doi.org/10.1016/j.diabres.2019.107843 Singh N, Singh P (2020) Stacking-based multi-objective evolutionary ensemble framework for prediction of diabetes mellitus. Biocybern Biomed Eng 40(1):1–22 Sisodia D, Sisodia DS (2018) Prediction of diabetes using classification algorithms. Proc Comput Sci 132:1578–1585 Sreejith S, Nehemiah HK, Kannan A (2020) Clinical data classification using an enhanced SMOTE and chaotic evolutionary feature selection. Comput Biol Med 126:103991 Wu H, Yang S, Huang Z, He J, Wang X (2018) Type 2 diabetes mellitus prediction model based on data mining. Inf Med Unlocked 10:100–107 Yu KP, Tan L, Aloqaily M, Yang H, Jararweh Y (2021) Blockchain-enhanced data sharing with traceable and direct revocation in IIoT. IEEE Trans Ind Inf Yu K, Tan L, Shang X, Huang J, Srivastava G, Chatterjee P (2020) Efficient and privacy-preserving medical research support platform against COVID-19: a blockchain-based approach. IEEE Consum Electron Mag Yu L, Liu H (2003) Feature selection for high-dimensional data: a fast correlation-based filter solution. In: Proceedings of the 20th international conference on machine learning (ICML-03), pp 856–863 Zheng X (2020) SMOTE variants for imbalanced binary classification: heart disease prediction. Doctoral dissertation, UCLA Zou Q, Qu K, Luo Y, Yin D, Ju Y, Tang H (2018) Predicting diabetes mellitus with machine learning techniques. Front Genet 9:515