Phân cụm hấp dẫn mật độ tổng quát cho dữ liệu không hoàn chỉnh

Data Mining and Knowledge Discovery - Tập 37 - Trang 970-1009 - 2023
Richard Leibrandt1, Stephan Günnemann1
1Data Analytics and Machine Learning, Department of Informatics, Technical University of Munich, Garching, Germany

Tóm tắt

Phương pháp mean shift là một phương pháp phân cụm phổ biến và mạnh mẽ cho việc thực hiện phân cụm hấp dẫn mật độ (DAC). Tuy nhiên, DAC chưa được phát triển đầy đủ về mặt định nghĩa mô hình và phương pháp cho dữ liệu không hoàn chỉnh. Do tầm quan trọng của DAC, việc giải quyết vấn đề phổ biến này là rất cần thiết. Công trình này làm cho DAC trở nên linh hoạt hơn bằng cách áp dụng cho dữ liệu không hoàn chỉnh: Đầu tiên, bằng cách sử dụng các định nghĩa mô hình chính thức, chúng tôi đề xuất một khuôn khổ thống nhất cho DAC. Thứ hai, chúng tôi đề xuất các phương pháp mới thực hiện các định nghĩa và tiến hành DAC cho dữ liệu không hoàn chỉnh hiệu quả và ổn định hơn các phương pháp khác. Chúng tôi thảo luận và so sánh các phương pháp của mình với đối thủ cạnh tranh gần nhất thông qua phân tích lý thuyết. Chúng tôi định lượng hiệu suất của các phương pháp này bằng cách sử dụng các tập dữ liệu tổng hợp có cấu trúc đã biết và dữ liệu kinh doanh thực tế cho ba loại giá trị thiếu. Cuối cùng, chúng tôi phân tích khảo sát Stack Overflow 2021 để trích xuất các cụm lập trình viên từ Ấn Độ và Hoa Kỳ. Các thí nghiệm xác nhận sự vượt trội của các phương pháp của chúng tôi so với sáu phương pháp thay thế khác. Mã, Dữ liệu: https://bit.ly/genDAC

Từ khóa

#Phân cụm hấp dẫn mật độ #Dữ liệu không hoàn chỉnh #Phương pháp mean shift #Phân tích lý thuyết #Khảo sát Stack Overflow

Tài liệu tham khảo

Abdallah L, Shimshoni I (2014) Mean shift clustering algorithm for data with missing values. In: International Conference on Data Warehousing and Knowledge Discovery, vol 8646. Springer, pp 426–438 Agamennoni G (2013) Bayesian clustering with outliers and missing values. Report ACFR-TR-2013-001, Australian Centre for Field Robotics Bacher J, Pöge A, Wenzig K (2000) Clusteranalyse 3.A.: anwendungsorientierte einführung in klassifikationsverfahren. Oldenbourg Wissenschaftsverlag Banerjee A, Dhillon I, Ghosh J et al (2007) A generalized maximum entropy approach to bregman co-clustering and matrix approximation. J Mach Learn Res 8:1919–1986 Biessmann F, Rukat T, Schmidt P et al (2019) Datawig: missing value imputation for tables. J Mach Learn Res 20(175):1–6 van Buuren S, Boshuizen HC, Knook DL (1999) Multiple imputation of missing blood pressure covariates in survival analysis. Statist Med 18(6):681–94 Campello RJGB, Moulavi D, Sander J (2013) Density-based clustering based on hierarchical density estimates. In: Advances in knowledge discovery and data mining. Springer, pp 160–172 Carreira-Perpiñán MÁ (2015) A review of mean-shift algorithms for clustering. In: CRC Handbook of cluster analysis. CRC Press, Boca Raton, Florida Chacón JE, Duong T (2020) Multivariate kernel smoothing and its applications, Monogr. Stat. Appl. Probab., vol 160. Chapman and Hall/CRC Chau VTN, Loc PH, Tran VTN (2015) A robust mean shift-based approach to effectively clustering incomplete educational data. In: International conference on advanced computing and applications (ACOMP), pp 12–19 Comaniciu D, Meer P (2002) Mean shift: a robust approach toward feature space analysis. IEEE Trans Pattern Anal Mach Intell 24(5):603–619 Dietterich TG (1998) Approximate statistical tests for comparing supervised classification learning algorithms. Neural Comput 10(7):1895–1923 Fashing M, Tomasi C (2005) Mean shift is a bound optimization. IEEE Trans Pattern Anal Mach Intell 27(3):471–474 Fukunaga K, Hostetler LD (1975) The estimation of the gradient of a density function, with applications in pattern recognition. IEEE Trans Inf Theory 21(1):32–40 Günnemann S, Müller E, Raubach S, et al. (2011) Flexible fault tolerant subspace clustering for data with missing values. In: 11th IEEE International Conference on Data Mining, pp 231–240 Hathaway RJ, Bezdek JC (2001) Fuzzy c-means clustering of incomplete data. IEEE Cybern 31(5):735–744 Helm MS, Dankovich TM, Mandad S et al (2021) A large-scale nanoscopy and biochemistry analysis of postsynaptic dendritic spines. Nat Neurosci 24:1151–1162 Himmelspach L, Conrad S (2010) Clustering approaches for data with missing values: comparison and evaluation. In: 5th International conference on digital information management (ICDIM) Hubert L, Arabie P (1985) Comparing partitions. J Classif 2:193–218 Jadhav A, Pramod D, Ramanathan K (2019) Comparison of performance of data imputation methods for numeric dataset. Appl Artif Intell 33(1):913–933 Jäger S, Allhorn A, Bießmann F (2021) A benchmark for data imputation methods. Frontiers in Big Data 4 Leibrandt K, Lorenz T, Nierhoff T, et al. (2013) Modelling human gameplay at pool and countering it with an anthropomorphic robot. In: Social robotics. Springer, pp 30–39 Leibrandt R, Günnemann S (2018) Making kernel density estimation robust towards missing values in highly incomplete multivariate data without imputation. In: SIAM International Conference on Data Mining Leibrandt R, Günnemann S (2020) Gauss shift: Density attractor clustering faster than mean shift. In: Eur. Conf. Princ. Pract. Knowl. Discov. Databases Liao L, Li K, Li K, et al. (2018) A multiple kernel density clustering algorithm for incomplete datasets in bioinformatics. BMC Syst Biol 12(111) Loader CR (1999) Bandwidth selection: classical or plug-in? Ann Stat 27(2):415–438 Muzellec B, Josse J, Boyer C et al. (2020) Missing data imputation using optimal transport. International Conference on Machine Learning PMLR, pp 7130–7140 Pedregosa F, Varoquaux G, Gramfort A et al (2011) Scikit-learn: machine learning in Python. J Mach Learn Res 12:2825–2830 Poulos J, Valle R (2018) Missing data imputation for supervised learning. Appl Artif Intell 32(2):186–196 Romano S, Bailey J, Nguyen V, et al. (2014) Standardized mutual information for clustering comparisons: one step further in adjustment for chance. In: International Conference on Machine Learning, pp 1143–1151 Romano S, Vinh NX, Bailey J et al (2016) Adjusting for chance clustering comparison measures. J Mach Learn Res 17(134):1–32 Rubin DB (1976) Inference and missing data. Biometrika 63(3):581–592 Schelter S, Rukat T, Biessmann F (2020) Learning to validate the predictions of black box classifiers on unseen data. In: ACM SIGMOD International Conference on Management of Data, p 1289-1299 Schnupp P, Leibrandt U (1988) Expertensysteme: Nicht nur für Informatiker. Springer, Springer Compass Shortliffe EH, Buchanan BG (1975) A model of inexact reasoning in medicine. Math Biosci 23(3–4):351–379 Stack Overflow (2021) Stack Overflow developer survey 2021. https://insights.stackoverflow.com/survey Steinley D, Brusco MJ, Hubert L (2016) The variance of the adjusted rand index. Psychol Methods 21(2):261–72 Timm H, Döring C, Kruse R (2002) Fuzzy cluster analysis of partially missing datasets. In: 2nd Int. W. on Hybr. Meth. for Adap. Sys. I, pp 426–431 Wagstaff KL (2004) Clustering with missing values: no imputation required. In: Meet. Int. Fed. Classif. Soc., pp 649–658 Wand M, Jones MC (1995) Kernel Smoothing. Chapman and Hall/CRC Xue Z, Wang H (2021) Effective density-based clustering algorithms for incomplete data. Big Data Min Anal 4(3):183–194 Yang L, Hou K (2018) A method of incomplete data three-way clustering based on density peaks. In: International conference on computer-aided design, manufacturing, Modeling and Simulation, p 020008