Xác thực phân cụm dựa trên Phương pháp Imputation Đa (MIV) cho Dữ liệu Thí nghiệm Lớn Theo chiều dài với Giá trị Thiếu trong Dịch vụ eHealth

Journal of Medical Systems - Tập 40 - Trang 1-9 - 2016
Zhaoyang Zhang1, Hua Fang1, Honggang Wang2
1Department of Quantitative Health Science, University of Massachusetts Medical School, Worcester, USA
2Department of Electrical and Computer Engineering, University of Massachusetts Dartmouth, North Dartmouth, USA

Tóm tắt

Các thí nghiệm được cung cấp qua web là một thành phần quan trọng trong các dịch vụ eHealth. Các thí nghiệm này, chủ yếu dựa trên hành vi, tạo ra dữ liệu lớn không đồng nhất, có tính dài hạn, có kích thước cao và có giá trị thiếu. Các phương pháp học không giám sát đã được áp dụng rộng rãi trong lĩnh vực này, tuy nhiên, việc xác thực số lượng cụm tối ưu gặp nhiều thách thức. Dựa trên phương pháp phân cụm mờ (fuzzy clustering) dựa trên suy diễn đa (MI) của chúng tôi, MIfuzzy, chúng tôi đề xuất một khuôn khổ xác thực dựa trên suy diễn đa mới (MIV) cùng với các thuật toán MIV tương ứng cho việc phân cụm dữ liệu eHealth lớn và dài hạn có giá trị thiếu, và rộng hơn là cho các phương pháp phân cụm dựa trên logic mờ. Cụ thể, chúng tôi phát hiện ra số lượng cụm tối ưu bằng cách tự động tìm kiếm và tổng hợp một loạt các phương pháp và chỉ số xác thực dựa trên MI, bao gồm cả các chỉ số xác thực thông thường (dựa trên bootstrap hoặc cross-validation) và mới nổi (dựa trên mô-đun) cho các phương pháp phân cụm tổng quát cũng như một chỉ số cụ thể (Xie và Beni) cho phân cụm mờ. Hiệu năng MIV đã được chứng minh trên một tập dữ liệu lớn theo chiều dài từ một thí nghiệm được cung cấp trên web thực tế và thông qua mô phỏng. Các kết quả cho thấy chỉ số Xie và Beni dựa trên MI cho phân cụm mờ là phù hợp hơn để phát hiện số lượng cụm tối ưu cho loại dữ liệu phức tạp này. Khái niệm và thuật toán MIV có thể dễ dàng thích ứng với các loại phân cụm khác nhau có khả năng xử lý dữ liệu thí nghiệm lớn và thiếu sót trong các dịch vụ eHealth.

Từ khóa

#thuật toán phân cụm #xác thực phân cụm #suy diễn đa #dữ liệu lớn #thí nghiệm theo chiều dài #dữ liệu thiếu #dịch vụ eHealth

Tài liệu tham khảo

Eysenbach, G., and Group, C.-E., Consort-ehealth: improving and standardizing evaluation reports of web-based and mobile health interventions. J. Med. Internet Res. 13(4), 2011. Fang, H, Zhang, Z., Wang, C. J, Daneshmand, M., Wang, C., Wang, H., A survey of big data research. IEEE Netw. 29:6–9, 2015. Fang, H., Espy, K. A, Rizzo, M. L, Stopp, C., Wiebe, S. A, Stroup, W. W, Pattern recognition of longitudinal trial data with nonignorable missingness: An empirical case study. Int. J. Inf. Technol. Decis. Mak. 8 (03):491–513, 2009. Fang, H., Dukic, V., Pickett, K. E., Wakschlag, L., Espy, K. A., Detecting graded exposure effects: A report on an east boston pregnancy cohort, p. ntr272: Nicotine & Tobacco Research , 2012. Fang, H., Zhang, Z., Huang, H.: Jingfang Huang Wang, Validating patterns for longitudinal trial data. Section on Statistics in Epidemiology. Joint Statistical Meeting, American Statistical Association (2014) Zhang, Z., Fang, H., Wang, H., Visualization aided engagement pattern validation for big longitudinal web behavior intervention data, the 17th international Conference on E-health Networking, Application & Services. (IEEE Healthcom’15), 2015. Accepted. McLachlan, G., and Peel, D., Finite mixture models: Wiley, 2004. Franċois, O., Ancelet, S., Guillot, G., Bayesian clustering using hidden markov random fields in spatial population genetics. Genetics 174(2):805–816, 2006. Gan, G., Ma, C., Wu, J., Data clustering: theory, algorithms, and applications. Vol. 20. Siam, 2007. Kubat, M., Neural networks: a comprehensive foundation by simon haykin, macmillan, 1994, isbn 0-02-352781-7, 1999. Bezdek, J. C, Keller, J., Krisnapuram, R., Pal, N., Fuzzy models and algorithms for pattern recognition and image processing. Vol. 4. Springer Science & Business Media, 2006. Schafer, J. L, Analysis of incomplete multivariate data. CRC press, 1997. Little, R. J, and Rubin, D. B, Statistical analysis with missing data. Wiley, 2014. Zhang, Z., and Fang, H., Multiple- vs non- or single-imputation based fuzzy clustering for incomplete longitudinal behavioral intervention data, Chase, 2016. Submitted. Fang, H., Johnson, C., Stopp, C., Espy, K. A, A new look at quantifying tobacco exposure during pregnancy using fuzzy clustering,. Neurotoxicol. Teratol. 33(1):155–165, 2011. Rubin, D. B, Multiple imputation for nonresponse in surveys. Vol. 81. Wiley, 2004. Schafer, J. L, Analysis of incomplete multivariate data. CRC press, 1997. Royston, P., Multiple imputation of missing values. Stata J. 4:227–241, 2004. Royston, P., Multiple imputation of missing values: update of ice. Stata J. 5(4):527, 2005. Little, R. J, A test of missing completely at random for multivariate data with missing values. J. Am. Stat. Assoc. 83(404):1198–1202, 1988. Rubin, D. B, Inference and missing data. Biometrika 63(3):581–592, 1976. Rubin, D. B, Multiple imputation for nonresponse in surveys. Vol. 81. Wiley, 2004. Rubin, D. B, Multiple imputation after 18+ years. J. Am. Stat. Assoc. 91(434):473–489, 1996. Klir, G., and Yuan, B., Fuzzy sets and fuzzy logic. Vol. 4. Prentice Hall New Jersey, 1995. Zadeh, L. A, Toward a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic. Fuzzy Set. Syst. 90(2):111–127, 1997. Fang, H., Rizzo, M. L, Wang, H., Espy, K. A, Wang, Z., A new nonlinear classifier with a penalized signed fuzzy measure using effective genetic algorithm. Pattern Recogn. 43(4):1393–1401, 2010. Acock, A. C, Working with missing values. J. Marriage Fam. 67(4):1012–1028, 2005. Donders, A. R. T, van der Heijden, G. J, Stijnen, T., Moons, K. G, Review: a gentle introduction to imputation of missing values. J. Clin. Epidemiol. 59(10):1087–1091, 2006. Little, R. J, and Rubin, D. B, The analysis of social science data with missing values. Sociol. Methods Res. 18(2–3):292–326, 1989. Afifi, A., and Elashoff, R., Missing observations in multivariate statistics i. review of the literature. J. Am. Stat. Assoc. 61(315):595–604, 1966. Buck, S. F, A method of estimation of missing values in multivariate data suitable for use with an electronic computer. J. R. Stat. Soc. Ser. B Methodol.,302–306, 1960. Marker, D. A, Judkins, D. R, Winglee, M., Large-scale imputation for complex surveys. Survey Nonresponse,329–341, 2002. Xie, X. L, and Beni, G., A validity measure for fuzzy clustering. IEEE Trans. Pattern Anal. Mach. Intell. 13 (8): 841–847 , 1991. Kwon, S. H, Cluster validity index for fuzzy clustering. Electron. Lett. 34(22):2176–2177, 1998. Halkidi, M., Batistakis, Y., Vazirgiannis, M., On clustering validation techniques. J. Intell. Inf. Syst. 17(2-3):107–145 , 2001. Newman, M. E, Modularity and community structure in networks,. Proc. Natl. Acad. Sci. 103(23):8577–8582, 2006. Newman, M., Networks: an introduction. Oxford University Press, 2010. Ben-Hur, A., Elisseeff, A., Guyon, I., A stability based method for discovering structure in clustered data. Pac. Symp. Biocomput. 7:6–17, 2001. Lange, T., Roth, V., Braun, M. L, Buhmann, J. M, Stability-based validation of clustering solutions. Neural Comput. 16(6):1299–1323, 2004. Ben-David, S., Von Luxburg, U., Pal, D.: A sober look at stability of clustering. In: Proceedings of the Annual Conference on Computational Learning Theory (2006) Fraley, C., and Raftery, A. E, Model-based clustering, discriminant analysis, and density estimation. J. Am. Stat. Assoc. 97(458):611–631, 2002. Raftery, A. E, and Dean, N., Variable selection for model-based clustering. J. Am. Stat. Assoc. 101(473): 168–178, 2006. Yeung, K. Y, Fraley, C., Murua, A., Raftery, A. E, Ruzzo, W. L, Model-based clustering and data transformations for gene expression data. Bioinformatics 17(10):977–987, 2001. Ng, A. Y, Jordan, M. I, Weiss, Y., et al., On spectral clustering: Analysis and an algorithm. Adv. Neural Inf. Proces. Syst. 2:849–856, 2002. Von Luxburg, U., A tutorial on spectral clustering. Stat. Comput. 17(4):395–416, 2007. Zelnik-Manor, L., and Perona, P.: Self-tuning spectral clustering. In: Advances in neural information processing systems, pp. 1601–1608 (2004) Efron, B., Bootstrap methods: another look at the jackknife. Ann. Stat.,1–26, 1979. Efron, B., and Tibshirani, R. J, An introduction to the bootstrap. CRC Press, 1994. Varian, H., Bootstrap tutorial. Math. J. 9(4):768–775, 2005. Davison, A. C, Bootstrap methods and their application. Vol. 1. Cambridge University Press, 1997. Beran, R., Prepivoting test statistics: a bootstrap view of asymptotic refinements. J. Am. Stat. Assoc. 83 (403):687–697, 1988. Bickel, P. J, and Freedman, D. A, Some asymptotic theory for the bootstrap. Ann. Stat.,1196–1217, 1981. Shao, J., Linear model selection by cross-validation. J. Am. Stat. Assoc. 88(422):486–494, 1993. Zhang, P., Model selection via multifold cross validation. Ann. Stat.,299–313, 1993. Yang, Y., Comparing learning methods for classification. Stat. Sin. 16(2):635, 2006. Tibshirani, R., and Walther, G., Cluster validation by prediction strength. J. Comput. Graph. Stat. 14(3): 511–528, 2005. Kohavi, R. et al.: A study of cross-validation and bootstrap for accuracy estimation and model selection. In: Ijcai, Vol. 14, pp. 1137–1145 (1995) Refaeilzadeh, P., Tang, L., Liu, H.: Cross-validation. In: Encyclopedia of database systems, pp. 532–538. Springer (2009) Leicht, E. A, and Newman, M. E, Community structure in directed networks. Phys. Rev. Lett. 100(11): 118703, 2008. Von Luxburg, U., A tutorial on spectral clustering. Stat. Comput. 17(4):395–416, 2007. Sas, I.: Sas/stat ® 9.2 user’s guide. SAS Institute Inc, Cary (2008) Wang, J., Consistent selection of the number of clusters via crossvalidation. Biometrika 97(4):893–904, 2010. Houston, T. K, Sadasivam, R. S, Ford, D. E, Richman, J., Ray, M. N, Allison, J. J, The quit-primo provider-patient internet-delivered smoking cessation referral intervention: a cluster-randomized comparative effectiveness trial: study protocol. Implement. Sci. 5:87, 2010. Houston, T. K, Sadasivam, R. S, Allison, J. J, Ash, A. S, Ray, M. N, English, T. M, Hogan, T. P, Ford, D. E, Evaluating the quit-primo clinical practice eportal to increase smoker engagement with online cessation interventions: a national hybrid type 2 implementation study,. Implement. Sci. 10(1):154 , 2015. Zhang, Z., Fang, H., Wang, H.: A new mi-based visualization aided validation index for trajectory pattern recognition of big longitudinal web trial data, IEEE ACCESS, 2015. accepted