Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Lựa chọn đặc trưng theo tập hợp với ngưỡng dữ liệu cho việc phát hiện biomarker của bệnh Alzheimer
Tóm tắt
Lựa chọn đặc trưng thường được sử dụng để xác định những đặc trưng quan trọng trong một tập dữ liệu nhưng có thể tạo ra các kết quả không ổn định khi áp dụng cho dữ liệu có kích thước cao. Tính ổn định của lựa chọn đặc trưng có thể được cải thiện với việc sử dụng các tập hợp lựa chọn đặc trưng, kết hợp các kết quả từ nhiều bộ chọn đặc trưng cơ sở. Tuy nhiên, một ngưỡng phải được áp dụng cho tập hợp đặc trưng cuối cùng để phân tách các đặc trưng có liên quan khỏi những đặc trưng dư thừa. Một ngưỡng cố định, thường được sử dụng, không đảm bảo rằng tập hợp cuối cùng của các đặc trưng đã chọn chỉ chứa những đặc trưng có liên quan. Công trình này xem xét một lựa chọn các ngưỡng dựa trên dữ liệu để tự động xác định các đặc trưng có liên quan trong một bộ chọn đặc trưng tập hợp và đánh giá độ chính xác dự đoán cũng như độ ổn định của chúng. Lựa chọn đặc trưng tập hợp với ngưỡng dựa trên dữ liệu được áp dụng cho hai nghiên cứu thực tế về bệnh Alzheimer. Bệnh Alzheimer là một bệnh thoái hóa thần kinh tiến triển không có phương pháp chữa trị nào được biết đến, bắt đầu ít nhất 2-3 thập kỷ trước khi có triệu chứng rõ ràng xuất hiện, tạo cơ hội cho các nhà nghiên cứu xác định các dấu ấn sinh học sớm có thể nhận diện bệnh nhân có nguy cơ phát triển bệnh Alzheimer. Các bộ chọn đặc trưng tập hợp, kết hợp với các ngưỡng dựa trên dữ liệu, tạo ra các kết quả ổn định hơn, trên tổng thể, so với các bộ chọn đặc trưng đơn lẻ tương đương, cho thấy sự cải thiện về độ ổn định lên đến 34%. Các ngưỡng dựa trên dữ liệu thành công nhất là ngưỡng tổng hợp xếp hạng chắc chắn và ngưỡng thuật toán từ lĩnh vực tìm kiếm thông tin. Các đặc trưng được xác định bằng cách áp dụng những phương pháp này cho các tập dữ liệu từ các nghiên cứu về bệnh Alzheimer phản ánh những phát hiện hiện tại trong tài liệu về AD. Các ngưỡng dựa trên dữ liệu được áp dụng cho các bộ chọn đặc trưng tập hợp cung cấp những lựa chọn đặc trưng ổn định hơn, và do đó tái sản xuất được hơn, so với các bộ chọn đặc trưng đơn lẻ, mà không làm mất hiệu suất. Việc sử dụng một ngưỡng dựa trên dữ liệu loại bỏ nhu cầu phải chọn một ngưỡng cố định trước và có thể chọn một tập hợp các đặc trưng có ý nghĩa hơn. Một tập hợp các đặc trưng đáng tin cậy và nhỏ gọn có thể tạo ra các mô hình dễ hiểu hơn bằng cách xác định các yếu tố quan trọng trong việc hiểu một căn bệnh.
Từ khóa
Tài liệu tham khảo
Guyon I, Elisseeff A, De AM. An introduction to variable and feature selection. J Mach Learn Res. 2003;3:1157–82.
Awada W, Khoshgoftaar TM, Dittman D, Wald R, Napolitano A. A review of the stability of feature selection techniques for bioinformatics data. In International Conference on Information Reuse & Integration (IRI) 2012;356–63.
Kalousis A, Prados J, Hilario M. Stability of feature selection algorithms: a study on high-dimensional spaces. Knowl Inf Syst. 2007;12(1):95–116.
Yu L, Ding C, Loscalzo S. Stable feature selection via dense feature groups. Proceedings of the 14th ACM SIGKDD international conference on knowledge discovery and data mining. 2008;803–11.
Saeys Y, Inza I, Larranaga P. A review of feature selection techniques in bioinformatics. Bioinformatics. 2007;23(19):2507–17.
Saeys Y, Abeel T, Van de Peer Y. Robust feature selection using ensemble feature selection techniques. Mach Learn Knowl Discov Databases ECML PKDD 2008. 2008;
Seijo-Pardo B, Bolón-Canedo V, Alonso-Betanzos A. On developing an automatic threshold applied to feature selection ensembles. Inf Fusion. 2019;45(June 2017):227–45. doi:https://doi.org/10.1016/j.inffus.2018.02.007
Song X, Waitman LR, Hu Y, Yu ASL, Robins D, Liu M. Robust clinical marker identification for diabetic kidney disease with ensemble feature selection. J Am Med Inform Assoc. 2019;26(3):242–53.
Pes B. Ensemble feature selection for high-dimensional data: a stability analysis across multiple domains. Neural Comput Appl. 2019;3. Available from: https://doi.org/10.1007/s00521-019-04082-3
Huynh-Thu VA, Saeys Y, Wehenkel L, Geurts P. Statistical interpretation of machine learning-based feature importance scores for biomarker discovery. Bioinformatics. 2012;28(13):1766–74.
Selkoe DJ, Hardy J. The amyloid hypothesis of Alzheimer’s disease at 25 years. EMBO Mol Med. 2016;8(e201606210):1–14. Available from: http://www.ncbi.nlm.nih.gov/pubmed/27025652
Dietterich TG. Ensemble methods in machine learning. Lect Notes Comput Sci (including Subser Lect Notes Artif Intell Lect Notes Bioinformatics). 2000;1857 LNCS:1–15.
Abeel T, Helleputte T, Van de Peer Y, Dupont P, Saeys Y. Robust biomarker identification for cancer diagnosis with ensemble feature selection methods. Bioinformatics. 2009;26(3):392–8.
Ben Brahim A, Limam M. Robust ensemble feature selection for high dimensional data sets. In Proceedings of 2013 International Conference on High Performance Computing & Simulation (HPCS), HPCS 2013. 2013;151–7.
Bolón-Canedo V, Sánchez-Maroño N, Alonso-Betanzos A. Data classification using an ensemble of filters. Neurocomputing. 2014;135:13–20.
Ben Brahim A, Limam M. Ensemble feature selection for high dimensional data: a new method and a comparative study. Adv Data Anal Classif. 2017;12(4):1–16.
Seijo-Pardo B, Porto-Díaz I, Bolón-Canedo V, Alonso-Betanzos A. Ensemble feature selection: Homogeneous and heterogeneous approaches. Knowl-Based Syst. 2017;118:124–39. https://doi.org/10.1016/j.knosys.2016.11.017.
Wald R, Khoshgoftaar TM, Dittman D, Awada W, Napolitano A. An extensive comparison of feature ranking aggregation techniques in bioinformatics. Proceedings of 2012 IEEE 13th International Conference on Information Reuse & Integration (IRI) 2012. 2012;377–84.
Sechidis K, Papangelou K, Nogueira S, Weatherall J, Brown G. On the stability of feature selection in the presence of feature correlations. Mach Learn Knowl Discov Databases ECML PKDD. 2019;11906:327–42.
Zhu M, Fan G. Variable selection by ensembles for the Cox model. J Stat Comput Simul. 2011;81(12):1983–92.
Stoppiglia H, Dreyfus G, Dubois R, Oussay Y. Ranking a random feature for variable and feature selection. J Mach Learn Res. 2003;3:1399–414.
Tuv E, Borisov A, Runger G, Torkkola K. Feature selection with ensembles, artificial variables, and redundancy elimination. J Mach Learn Res. 2009;10:1341–66.
Kursa MB, Jankowski A, Rudnicki WR. Boruta: a system for feature selection. Fundam Informaticae. 2010;101(4):271–85.
Jin X, Han J. K-Means Clustering. Encycl Mach Learn Data Min. 2017;697–700.
Raykov YP, Boukouvalas A, Baig F, Little MA. What to do when K-means clustering fails: a simple yet principled alternative algorithm. PLoS ONE. 2016;11(9):1–28.
Emond EJ, Mason DW. A new rank correlation coefficient with application to the consensus ranking problem. J Multi-Criteria Decis Anal. 2002;11(1):17–28.
Dunne K, Cunningham P, Azuaje F. Solutions to Instability Problems with Sequential Wrapper-based Approaches to Feature Selection. Mach Learn. 2002;1–22. Available from: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.11.4109&rep=rep1&type=pdf
Aslam JA, Montague M. Models for metasearch. SIGIR Forum (ACM Spec Interes Gr Inf Retrieval). 2001;276–84.
Kolde R, Laur S, Adler P, Vilo J. Robust rank aggregation for gene list integration and meta-analysis. Bioinformatics. 2012;28(4):573–80.
Fagin R, Lotem A, Naor M. Optimal aggregation algorithms for middleware. J Comput Syst Sci. 2003;66(4):614–56.
Sculley D. Rank Aggregation for Similar Items. 2006; Available from: http://www.eecs.tufts.edu/~dsculley/papers/mergeSimilarRank.pdf
Somol P, Novovičová J. Evaluating stability and comparing output of feature selectors that optimize feature subset cardinality. IEEE Trans Pattern Anal Mach Intell. 2010;32(11):1921–39.
Lustgarten JL, Gopalakrishnan V, Visweswaran S. Measuring stability of feature selection in biomedical datasets. AMIA . Annu Symp proceedings AMIA Symp. 2009;2009(3):406–10.
Sachdev PS, Brodaty H, Reppermund S, Kochan N a, Trollor JN, Draper B, et al. The Sydney Memory and Ageing Study (MAS): methodology and baseline medical and neuropsychiatric characteristics of an elderly epidemiological non-demented cohort of Australians aged 70–90 years. Int Psychogeriatr. 2010;22(8):1248–64.
Mueller W, Thal P. The Alzheimer’s disease neuroimaging initiative. Neuroimaging Clin N Am. 2005;15(4):869–xii.
van Buuren S, Groothuis-Oudshoorn K. mice. Multivariate Imputation by Chained Equations in R. J Stat Softw. 2011;45(3). Available from: http://www.jstatsoft.org/v45/i03/
Spooner A, Sowmya A, Sachdev P, Kochan NA, Trollor J, Brodaty H. Machine learning models for predicting dementia: a comparison of methods for survival analysis of high-dimensional clinical data. Nat Sci Rep. 2020;1–10. doi:https://doi.org/10.1038/s41598-020-77220-w.
Team R. R: A language and environment for statistical computing (Version 3.4. 2) [Computer software]. Vienna, Austria: R Foundation for Statistical Computing. 2017.
Bischl B, Lang M, Kotthoff L, Schiffner J, Richter J, Studerus E, et al. mlr: machine learning in R. J Mach Learn Res. 2016;17(1):5938–42. Available from: https://dl.acm.org/citation.cfm?id=3053452
Katana Computational Cluster. https://dx.oi.org/1026190/669x-a286.
Tibshirani RJ. The lasso method for variable selection in the Cox model. Stat Med. 1995;1997(16):385–95.
Simon N, Friedman J, Hastie T, Tibrishani R. Regularization paths for Cox’s proportional hazards model via coordinate descent. 2011;(1):1–13.
Tutz G, Binder H. Boosting ridge regression. Comput Stat Data Anal. 2007;51(12):6044–59.
Binder H, Schumacher M. Allowing for mandatory covariates in boosting estimation of sparse high-dimensional survival models. BMC Bioinform. 2008;9:1–10.
Wright MN, Dankowski T, Ziegler A. Unbiased split variable selection for random survival forests using maximally selected rank statistics. Stat Med. 2017;36(8):1272–84.
Silverman BW. Density estimation for statistics and data analysis. Routledge; 1998. 176 p. Available from: https://doi.org/10.1201/9781315140919
Harrell FE, Califf RM, Pryor DB, Lee KL, Rosati RA. Evaluating the yield of medical tests. JAMA J Am Med Assoc. 1982;247(18):2543–6.
Mitnitski A, Rockwood K, Song X. Nontraditional risk factors combine to predict Alzheimer disease and dementia. Neurology. 2011;77(3):227–34.
Livingston G, Huntley J, Sommerlad A, Ames D, Ballard C, Banerjee S, et al. Dementia prevention, intervention, and care: 2020 report of the Lancet Commission. Lancet. 2020;396(10248):413–46.
Brodaty H, Pond D, Kemp NM, Luscombe G, Harding L, Berman K, et al. The GPCOG: a new screening test for dementia designed for general practice. J Am Geriatr Soc. 2002;50(3):530–4.
Folstein M, Folstein S, McHugh P. Mini-mental state: a practical method for grading the cognitive stats of patients for the clinician. J Psychiatr Res. 1975;12:189–98.
Cherbuin N, Francis Jorm A. The informant Questionnaire on cognitive decline in the elderly (IQCODE). Princ Pract Geriatr Psychiatry Third Ed. 2010;147–51.
Slavin M, Brodaty H, Kochan N, Crawford J, Reppermund S, Trollor J, et al. P3–100: predicting MCI or dementia at follow-up: using subjective memory and non-memory complaints from both the participant and informant. Alzheimer’s Dement. 2011;7:S546–S546.
Bayat S, Babulal GM, Schindler SE, Fagan AM, Morris JC, Mihailidis A, et al. GPS driving: a digital biomarker for preclinical Alzheimer disease. Alzheimer’s Res Ther. 2021;13(1):1–9.
Di X, Shi R, Diguiseppi C, Eby DW, Hill LL, Mielenz TJ, et al. Using naturalistic driving data to predict mild cognitive impairment and dementia: preliminary findings from the longitudinal research on aging drivers (longroad) study. Geriatr. 2021;6(2):0–9.
Mitnitski A, Collerton J, Martin-Ruiz C, Jagger C, von Zglinicki T, Rockwood K, et al. Age-related frailty and its association with biological markers of ageing. BMC Med. 2015;13(1):1–9.
Sangha PS, Thakur M, Akhtar Z, Ramani S, Gyamfi RS. The Link between rheumatoid arthritis and dementia: a review. Cureus. 2020;12(4):1–8.
Kao LT, Kang JH, Lin HC, Huang CC, Lee HC, Chung SD. Rheumatoid arthritis was negatively associated with Alzheimer’s disease: a population-based case-control study. PLoS ONE. 2016;11(12):1–9.
Kim JW, Byun MS, Yi D, Lee JH, Jeon SY, Ko K, et al. Serum uric acid, Alzheimer-related brain changes, and cognitive impairment. Front Aging Neurosci. 2020;12(June):1–9.
Guo H, Sapra A. Instrumental Activity of Daily Living. [Internet]. StatPearls. Treasure Island (FL): StatPearls Publishing; 2021 [cited 2022 Jun 28]. Available from: https://www.ncbi.nlm.nih.gov/books/NBK553126/
Blennow K, Mattsson N, Schöll M, Hansson O, Zetterberg H. Amyloid biomarkers in Alzheimer’s disease [Internet]. Vol. 36, Trends in pharmacological sciences. 2015 [cited 2017 May 5]. p. 297–309. Available from: http://www.sciencedirect.com/science/article/pii/S0165614715000425
Lewczuk P, Ermann N, Andreasson U, Schultheis C, Podhorna J, Spitzer P, et al. Plasma neurofilament light as a potential biomarker of neurodegeneration in Alzheimer’s disease. Alzheimer’s Res Ther. 2018;10(1):1–10.
Dhiman K, Gupta VB, Villemagne VL, Eratne D, Graham PL, Fowler C, et al. Cerebrospinal fluid neurofilament light concentration predicts brain atrophy and cognition in Alzheimer’s disease. Alzheimer’s Dement Diagnosis Assess Dis Monit. 2020;12(1):1–9.
Zhou J, Liu J, Narayan VA, Ye J. Modeling disease progression via multi-task learning. Neuroimage. 2013;78:233–48. Available from: http://dx.doi.org/https://doi.org/10.1016/j.neuroimage.2013.03.073
Cummings J. The neuropsychiatric inventory: development and applications. J Geriatr Psychiatry Neurol. 2020;33(2):73–84.
Wellington H, Paterson RW, Portelius E, Törnqvist U, Magdalinou N, Fox NC, et al. Increased CSF neurogranin concentration is specific to Alzheimer disease. 2016;
Dafsari FS, Jessen F. Depression: an underrecognized target for prevention of dementia in Alzheimer’s disease. Transl Psychiatry. 2020;10(1):1–13. Available from: http://dx.doi.org/https://doi.org/10.1038/s41398-020-0839-1
Kuyumcu ME, Yesil Y, Oztürk ZA, Kizilarslanoǧlu C, Etgül S, Halil M, et al. The evaluation of neutrophil-lymphocyte ratio in Alzheimer’s disease. Dement Geriatr Cogn Disord. 2012;34(2):69–74.
Barber RF, Candés EJ. Controlling the false discovery rate via knockoffs. Ann Stat. 2015;43(5):2055–85.