Tốt hơn cả cái tốt nhất? Các câu trả lời thông qua tổ hợp mô hình trong phân cụm dựa trên mật độ

Alessandro Casa1, Luca Scrucca2, Giovanna Menardi1
1Department of Statistical Sciences, University of Padova, Via C. Battisti, 241, 35121, Padua, Italy
2Department of Economics, University of Perugia, Via A. Pascoli, 20, 06123, Perugia, Italy

Tóm tắt

Tóm tắtVới sự gia tăng gần đây trong tính khả dụng và độ phức tạp của dữ liệu, cùng với sự bùng nổ các phương pháp mô hình phức tạp, các công cụ lựa chọn mô hình đã trở thành một cứu cánh, cung cấp các tiêu chí khách quan để xử lý cảnh quan ngày càng thách thức này. Trên thực tế, việc dự đoán và suy diễn dựa trên một mô hình đơn lẻ có thể bị giới hạn, nếu không muốn nói là có hại; các phương pháp tổ hợp, kết hợp nhiều mô hình khác nhau, đã được đề xuất để vượt qua bước lựa chọn này và chứng minh được tính hữu ích, đặc biệt trong khuôn khổ học có giám sát. Ngược lại, những phương pháp này vẫn chưa được khám phá nhiều trong bối cảnh không có giám sát. Trong công trình này, chúng tôi tập trung vào biểu thức phân cụm dựa trên mô hình, nơi một số lượng lớn mô hình hỗn hợp, với số lượng thành phần và tham số hóa khác nhau, thường được ước lượng. Chúng tôi đề xuất một phương pháp phân cụm tổ hợp, giúp vượt qua khuôn mẫu của mô hình tốt nhất đơn lẻ, đồng thời cải thiện độ ổn định và độ tin cậy của các phân công. Một ước lượng mật độ mới, là một tổ hợp tuyến tính lồi của các ước tính mật độ trong tổ hợp, được giới thiệu và khai thác để phân nhóm. Trái ngược với trường hợp tiêu chuẩn, nơi các cụm thường được liên kết với các thành phần của mô hình hỗn hợp đã chọn, chúng tôi định nghĩa các phân vùng bằng cách mượn phương pháp phân cụm modal, hoặc phi tham số, nơi các nhóm được liên kết với các vùng có mật độ cao. Giữ nguyên trong lĩnh vực dựa trên mật độ, chúng tôi cho thấy cách mà việc kết hợp các phương pháp tham số và phi tham số có thể mang lại lợi ích từ góc độ phân cụm.

Từ khóa


Tài liệu tham khảo

Aghaeepour N, Finak G, Hoos H, Mosmann T, Brinkman R, Gottardo R, Scheuermann R, FlowCAP Consortium, DREAM Consortium (2013) Critical assessment of automated flow cytometry data analysis techniques. Nat Methods 10(3):228

Azzalini A, Dalla Valle A (1996) The multivariate skew-normal distribution. Biometrika 83(4):715–726

Banfield J, Raftery AE (1993) Model-based Gaussian and non-Gaussian clustering. Biometrics 49(3):803–821

Baudry JP, Raftery AE, Celeux G, Lo K, Gottardo R (2010) Combining mixture components for clustering. J Comput Graph Stat 19(2):332–353

Biernacki C, Celeux G, Govaert G (2000) Assessing a mixture model for clustering with the integrated completed likelihood. IEEE T Pattern Anal 22(7):719–725

Celeux G, Govaert G (1995) Gaussian parsimonious clustering models. Pattern Recognit 28(5):781–793

Chacón JE (2019) Mixture model modal clustering. Adv Data Anal Classif 13(2):379–404

Chacón JE, Duong T (2018) Multivariate kernel smoothing and its applications. Chapman and Hall/CRC, London

Cheng Y (1995) Mean shift, mode seeking, and clustering. IEEE Trans Pattern Anal 17(8):790–799

Claeskens G, Hjort N (2008) Model selection and model averaging. Cambridge University Press, Cambridge

Dempster A, Laird N, Rubin D (1977) Maximum likelihood from incomplete data via the EM algorithm. J R Stat Soc Ser B Stat Methodol 39(1):1–22

Dietterich T (2000) An experimental comparison of three methods for constructing ensembles of decision trees: bagging, boosting, and randomization. Mach Learn 40(2):139–157

Duong T (2019) ks: Kernel Smoothing. R package version 1.11.4. https://CRAN.R-project.org/package=ks. Accessed Aug 2019

Fern XZ, Brodley CE (2003) Random projection for high dimensional data clustering: a cluster ensemble approach. In: Proceedings of the 20th international conference on machine learning, pp 186–193

Fisher R (1936) The use of multiple measurements in taxonomic problems. Ann Eugen 7(2):179–188

Forina M, Armanino C, Castino M, Ubigli M (1986) Multivariate data analysis as a discriminating method of the origin of wines. Vitis 25(3):189–201

Fraley C, Raftery AE (2002) Model-based clustering, discriminant analysis, and density estimation. J Am Stat Assoc 97(458):611–631

Friedman J, Hastie T, Tibshirani R (2001) The elements of statistical learning. Springer, New York

Fukunaga K, Hostetler L (1975) The estimation of the gradient of a density function, with applications in pattern recognition. IEEE Trans Inform Theory 21(1):32–40

Glodek M, Schels M, Schwenker F (2013) Ensemble Gaussian mixture models for probability density estimation. Comput Stat 28(1):127–138

Hennig C (2010) Methods for merging Gaussian mixture components. Adv Data Anal Classif 4(1):3–34

Hubert L, Arabie P (1985) Comparing partitions. J Classif 2(1):193–218

Kuncheva L, Hadjitodorov S (2004) Using diversity in cluster ensembles. In: 2004 IEEE international conference on systems, man and cybernetics, vol 2. IEEE, pp 1214–1219

Leeb H, Pötscher B (2005) Model selection and inference: facts and fiction. Econom Theory 21(1):21–59

Li J (2005) Clustering based on a multilayer mixture model. J Comput Graph Stat 14(3):547–568

Li J, Ray S, Lindsay B (2007) A nonparametric statistical approach to clustering via mode identification. J Mach Learn Res 8:1687–1723

Madigan D, Raftery AE (1994) Model selection and accounting for model uncertainty in graphical models using Occam’s window. J Am Stat Assoc 89(428):1535–1546

Malsiner-Walli G, Frühwirth-Schnatter S, Grün B (2017) Identifying mixtures of mixtures using Bayesian estimation. J Comput Graph Stat 26(2):285–295

Menardi G (2016) A review on modal clustering. Int Stat Rev 84(3):413–433

Monti S, Tamayo P, Mesirov J, Golub T (2003) Consensus clustering: a resampling-based method for class discovery and visualization of gene expression microarray data. Mach Learn 52(1–2):91–118

R Core Team (2019) R: a language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/. Accessed Aug 2019

Rigollet P, Tsybakov A (2007) Linear and convex aggregation of density estimators. Math Methods Stat 16(3):260–280

Russell N, Murphy TB, Raftery AE (2015) Bayesian model averaging in model-based clustering and density estimation. arXiv preprint arXiv:1506.09035

Schwarz G (1978) Estimating the dimension of a model. Ann Stat 6(2):461–464

Scott D (2015) Multivariate density estimation: theory, practice, and visualization. Wiley, New York

Scrucca L (2016) Identifying connected components in Gaussian finite mixture models for clustering. Comput Stat Data Anal 93:5–17

Scrucca L (2020) A fast and efficient modal EM algorithm for Gaussian mixtures. arXiv preprint arXiv:2002.03600

Scrucca L, Raftery AE (2015) Improved initialisation of model-based clustering using Gaussian hierarchical partitions. Adv Data Anal Classif 9(4):447–460

Scrucca L, Fop M, Murphy TB, Raftery AE (2016) mclust 5: clustering, classification and density estimation using Gaussian finite mixture models. R J 8(1):289

Smyth P, Wolpert D (1999) Linearly combining density estimators via stacking. Mach Learn 36(1–2):59–83

Spidlen J, Breuer K, Rosenberg C, Kotecha N, Brinkman R (2012) Flowrepository: a resource of annotated flow cytometry datasets associated with peer-reviewed publications. Cytom Part A 81(9):727–731

Strehl A, Ghosh J (2002) Cluster ensembles—a knowledge reuse framework for combining multiple partitions. J Mach Learn Res 3:583–617

Stuetzle W (2003) Estimating the cluster tree of a density by analyzing the minimal spanning tree of a sample. J Classif 20(1):025–047

Tibshirani R, Wainwright M, Hastie T (2015) Statistical learning with sparsity: the lasso and generalizations. Chapman and Hall, London

Viroli C, McLachlan G (2019) Deep Gaussian mixture models. Stat Comput 29(1):43–51

Wang K, Ng A, McLachlan G (2018) EMMIXskew: the EM algorithm and skew mixture distribution. https://CRAN.R-project.org/package=EMMIXskew. R package version 1.0.3

Wei Y, McNicholas PD (2015) Mixture model averaging for clustering. Adv Data Anal Classif 9(2):197–217