Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Phân tích hiệu quả dữ liệu lâm sàng COVID-19 bằng cách sử dụng các mô hình học máy
Tóm tắt
Do sự lây lan nhanh chóng của COVID-19 đến hầu hết mọi nơi trên thế giới, một khối lượng dữ liệu lớn và các nghiên cứu trường hợp đã được cung cấp, mang lại cho các nhà nghiên cứu cơ hội độc đáo để tìm kiếm xu hướng và thực hiện các khám phá như chưa từng có bằng cách tận dụng dữ liệu lớn như vậy. Dữ liệu này có nhiều loại khác nhau và có thể có nhiều mức độ chính xác khác nhau, ví dụ: chính xác, không chính xác, không chắc chắn và khuyết thiếu, tạo ra thách thức trong việc trích xuất thông tin có ý nghĩa từ dữ liệu đó. Tuy nhiên, việc phân tích hiệu quả dữ liệu COVID-19 đang liên tục phát triển và tiến hóa là điều rất quan trọng để thông báo — thường là theo thời gian thực — các biện pháp cần thiết để kiểm soát, giảm nhẹ và cuối cùng ngăn chặn sự lây lan của virus. Việc áp dụng các thuật toán dựa trên học máy vào dữ liệu lớn này là một cách tiếp cận tự nhiên nhằm đạt được mục tiêu này vì chúng có thể nhanh chóng mở rộng với dữ liệu như vậy và trích xuất thông tin liên quan trong bối cảnh đa dạng và các mức độ chính xác khác nhau. Điều này rất quan trọng cho COVID-19 và các đại dịch tiềm năng trong tương lai nói chung. Trong bài báo này, chúng tôi thiết kế một cách mã hóa đơn giản dữ liệu lâm sàng (trên các thuộc tính phân loại) thành một biểu diễn vector đặc trưng có độ dài cố định và sau đó đề xuất một mô hình thực hiện việc lựa chọn đặc trưng hiệu quả từ biểu diễn đó. Chúng tôi áp dụng phương pháp này cho hai tập dữ liệu lâm sàng của bệnh nhân COVID-19 và sau đó áp dụng các thuật toán học máy khác nhau cho mục đích phân loại. Chúng tôi cho thấy rằng với thuật toán lựa chọn đặc trưng hiệu quả, chúng tôi có thể đạt được độ chính xác dự đoán hơn 90% trong hầu hết các trường hợp. Chúng tôi cũng tính toán tầm quan trọng của các thuộc tính khác nhau trong tập dữ liệu bằng cách sử dụng độ tăng thông tin. Điều này có thể giúp các nhà hoạch định chính sách tập trung vào chỉ một số thuộc tính nhất định để nghiên cứu bệnh này thay vì chú trọng vào nhiều yếu tố ngẫu nhiên có thể không mang lại thông tin nhiều về kết quả của bệnh nhân.
Từ khóa
#COVID-19 #dữ liệu lâm sàng #học máy #phân tích dữ liệu #lựa chọn đặc trưngTài liệu tham khảo
Ali S, Patterson M. Spike2vec: An efficient and scalable embedding approach for covid-19 spike sequences. In 2021 IEEE International Conference on Big Data (Big Data) 2021 Dec 15 (pp. 1533–1540).
Ali S, Bello B, Patterson M (2021a) Classifying covid-19 spike sequences from geographic location using deep learning. arXiv preprint arXiv:211000809
GISAID Website (Accessed: 10-12-2021) . https://www.gisaidorg/
Leung CK, Chen Y, Hoi CS, Shang S, Cuzzocrea A (2020a) Machine learning and olap on big covid-19 data. In: 2020 IEEE International Conference on Big Data (Big Data), pp 5118–5127
Leung CK, Chen Y, Shang S, Deng D (2020b) Big data science on covid-19 data. In: 2020 IEEE 14th International Conference on Big Data Science and Engineering (BigDataSE), pp 14–21
Ali S, Mansoor H, Arshad N, Khan I (2019a) Short term load forecasting using smart meter data. In: International Conference on Future Energy Systems, pp 419–421
Ali S, Mansoor H, Khan I, Arshad N, Khan MA, Faizullah S (2019b) Short-term load forecasting using ami data. arXiv preprint arXiv:191212479
Abdulkareem KH, Mohammed MA, Salim A, Arif M, Geman O, Gupta D, Khanna A (2021) Realizing an effective covid-19 diagnosis system based on machine learning and iot in smart hospital environment. IEEE Internet of Things Journal
Lundberg SM, Lee SI (2017) A unified approach to interpreting model predictions. In: Guyon I, Luxburg UV, Bengio S, Wallach H, Fergus R, Vishwanathan S, Garnett R (eds) Advances in Neural Information Processing Systems 30, pp 4765–4774
Lundberg SM, Nair B, Vavilala MS, Horibe M, Eisses MJ, Adams T, Liston DE, Low DKW, Newman SF, Kim J et al (2018) Explainable machine-learning predictions for the prevention of hypoxaemia during surgery. Nat Biomed Eng 2(10):749
Lundberg SM, Erion G, Chen H, DeGrave A, Prutkin JM, Nair B, Katz R, Himmelfarb J, Bansal N, Lee SI (2020) From local explanations to global understanding with explainable ai for trees. Nat Mach Intell 2(1):2522–5839
Ali S, Shakeel MH, Khan I, Faizullah S, Khan MA (2021) Predicting attributes of nodes using network structure. ACM Trans Intell Syst Technol 12(2):1–23
Grover A, Leskovec J (2016) node2vec: Scalable feature learning for networks. In: International Conference on Knowledge Discovery & Data Mining (KDD), pp 855–864
Yang L, Guo Y, Cao X (2018) Multi-facet network embedding: Beyond the general solution of detection and representation. In: AAAI Conference on Artificial Intelligence (AAAI), pp 499–506
Alakus TB, Turkoglu I (2020) Comparison of deep learning approaches to predict covid-19 infection. Chaos, Solitons & Fractals 140:110120
Ahmad M, Ali S, Tariq J, Khan I, Shabbir M, Zaman A (2020) Combinatorial trace method for network immunization. Inf Sci 519:215–228
Ullah A, Ali S, Khan I, Khan MA, Faizullah S (2020) Effect of analysis window and feature selection on classification of hand movements using EMG signal. In: SAI Intelligent Systems Conference (IntelliSys), pp 400–415
Shakeel MH, Karim A, Khan I (2019) A multi-cascaded deep model for bilingual sms classification. In: International Conference on Neural Information Processing, pp 287–298
Shakeel MH, Faizullah S, Alghamidi T, Khan I (2020a) Language independent sentiment analysis. In: 2019 International Conference on Advances in the Emerging Computing Technologies (AECT), pp 1–5
Shakeel MH, Karim A, Khan I (2020b) A multi-cascaded model with data augmentation for enhanced paraphrase detection in short texts. Information Processing & Management 57(3):102204
Hassan IU, Haseeb A, Ali S (2021) Locally weighted mean phase angle (lwmpa) based tone mapping quality index (tmqi-3). Accepted at: International Conference on Intelligent Vision and Computing (ICIVC)
Leung CK, Fung DL, Mushtaq SB, Leduchowski OT, Bouchard RL, Jin H, Cuzzocrea A, Zhang CY (2020c) Data science for healthcare predictive analytics. In: Proceedings of the 24th Symposium on International Database Engineering & Applications, pp 1–10
Ali S, Sahoo B, Ullah N, Zelikovskiy A, Patterson M, Khan I (2021d) A k-mer based approach for sars-cov-2 variant identification. In: International Symposium on Bioinformatics Research and Applications, pp 153–164
Ali S, Ali TE, Khan MA, Khan I, Patterson M. Effective and scalable clustering of SARS-CoV-2 sequences. In 2021 the 5th International Conference on Big Data Research (ICBDR) 2021 Sep 25 (pp. 42–49).
Tayebi Z, Ali S, Patterson M (2021) Robust representation and efficient feature selection allows for effective clustering of sars-cov-2 variants. Algorithms 14(12):348
Kuzmin K, Adeniyi AE, DaSouza Jr AK, Lim D, Nguyen H, Molina NR, Xiong L, Weber IT, Harrison RW (2020) Machine learning methods accurately predict host specificity of coronaviruses based on spike sequences alone. Biochem Biophys Res Commun 533(3), 553–558
Shah V, Keniya R, Shridharani A, Punjabi M, Shah J, Mehendale N (2021) Diagnosis of covid-19 using ct scan images and deep learning techniques. Emerg Radiol 28(3):497–505
Zaffino P, Marzullo A, Moccia S, Calimeri F, De Momi E, Bertucci B, Arcuri PP, Spadea MF (2021) An open-source covid-19 ct dataset with automatic lung tissue classification for radiomics. Bioengineering 8(2):26
Teli MN (2021) Telinet: Classifying ct scan images for covid-19 diagnosis. In: Proceedings of the IEEE/CVF International Conference on Computer Vision, pp 496–502
Panwar H, Gupta P, Siddiqui MK, Morales-Menendez R, Bhardwaj P, Singh V (2020) A deep learning and grad-cam based color visualization approach for fast detection of covid-19 cases using chest x-ray and ct-scan images. Chaos, Solitons & Fractals 140:110190
Albahri AS, Hamid RA, Alwan JK, Al-Qays Z, Zaidan A, Zaidan B, Albahri A, AlAmoodi A, Khlaf JM, Almahdi E, et al. (2020) Role of biological data mining and machine learning techniques in detecting and diagnosing the novel coronavirus (covid-19): a systematic review. J Med Syst 44:1–11
Li WT, Ma J, Shende N, Castaneda G, Chakladar J, Tsai JC, Apostol L, Honda CO, Xu J, Wong LM, et al. (2020) Using machine learning of clinical data to diagnose covid-19: a systematic review and meta-analysis. BMC medical informatics and decision making 20(1):1–13
Fung DL, Hoi CS, Leung CK, Zhang CY (2021) Predictive analytics of covid-19 with neural networks. In: 2021 International Joint Conference on Neural Networks (IJCNN), pp 1–8
Ali S (2021) Cache replacement algorithm. arXiv preprint arXiv:210714646
Kursa MB, Rudnicki WR, et al. (2010) Feature selection with the boruta package. J Stat Softw 36(11), 1–13
Hoerl AE, Kannard RW, Baldwin KF (1975) Ridge regression: some simulations. Communications in Statistics-Theory and Methods 4(2), 105–123
Rahimi A, Recht B, et al. (2007) Random features for large-scale kernel machines. In: NIPS, vol 3, p 5
Ali S, Ciccolella S, Lucarella L, Vedova GD, Patterson M (2021b) Simpler and faster development of tumor phylogeny pipelines. J Comput Biol 28(11), 1142–1155
McDonald GC (2009) Ridge regression. Wiley Interdisciplinary Reviews: Comput Stat 1(1), 93–100
Devijver P, Kittler J (1982) Pattern recognition: A statistical approach. In: London, GB: Prentice-Hall, pp 1–448
Van der M L, Hinton G (2008) Visualizing data using t-SNE. J Mach Learn Res (JMLR) 9(11)
NewYork Times (NYT) (2021) https://www.nytimes.com/interactive/2020/us/covid-19-vaccine-doses.html, [Online; Accessed: 15-12-2021]
Benesty J, Chen J, Huang Y, Cohen I (2009) Pearson correlation coefficient. In: Noise reduction in speech processing, pp 1–4
Myers L, Sirois MJ. Spearman correlation coefficients, differences between. Encyclopedia of statistical sciences. 2004 Jul 15;12.
