Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Phân cụm hấp dẫn mật độ tổng quát cho dữ liệu không hoàn chỉnh
Tóm tắt
Phương pháp mean shift là một phương pháp phân cụm phổ biến và mạnh mẽ cho việc thực hiện phân cụm hấp dẫn mật độ (DAC). Tuy nhiên, DAC chưa được phát triển đầy đủ về mặt định nghĩa mô hình và phương pháp cho dữ liệu không hoàn chỉnh. Do tầm quan trọng của DAC, việc giải quyết vấn đề phổ biến này là rất cần thiết. Công trình này làm cho DAC trở nên linh hoạt hơn bằng cách áp dụng cho dữ liệu không hoàn chỉnh: Đầu tiên, bằng cách sử dụng các định nghĩa mô hình chính thức, chúng tôi đề xuất một khuôn khổ thống nhất cho DAC. Thứ hai, chúng tôi đề xuất các phương pháp mới thực hiện các định nghĩa và tiến hành DAC cho dữ liệu không hoàn chỉnh hiệu quả và ổn định hơn các phương pháp khác. Chúng tôi thảo luận và so sánh các phương pháp của mình với đối thủ cạnh tranh gần nhất thông qua phân tích lý thuyết. Chúng tôi định lượng hiệu suất của các phương pháp này bằng cách sử dụng các tập dữ liệu tổng hợp có cấu trúc đã biết và dữ liệu kinh doanh thực tế cho ba loại giá trị thiếu. Cuối cùng, chúng tôi phân tích khảo sát Stack Overflow 2021 để trích xuất các cụm lập trình viên từ Ấn Độ và Hoa Kỳ. Các thí nghiệm xác nhận sự vượt trội của các phương pháp của chúng tôi so với sáu phương pháp thay thế khác. Mã, Dữ liệu:
https://bit.ly/genDAC
Từ khóa
#Phân cụm hấp dẫn mật độ #Dữ liệu không hoàn chỉnh #Phương pháp mean shift #Phân tích lý thuyết #Khảo sát Stack OverflowTài liệu tham khảo
Abdallah L, Shimshoni I (2014) Mean shift clustering algorithm for data with missing values. In: International Conference on Data Warehousing and Knowledge Discovery, vol 8646. Springer, pp 426–438
Agamennoni G (2013) Bayesian clustering with outliers and missing values. Report ACFR-TR-2013-001, Australian Centre for Field Robotics
Bacher J, Pöge A, Wenzig K (2000) Clusteranalyse 3.A.: anwendungsorientierte einführung in klassifikationsverfahren. Oldenbourg Wissenschaftsverlag
Banerjee A, Dhillon I, Ghosh J et al (2007) A generalized maximum entropy approach to bregman co-clustering and matrix approximation. J Mach Learn Res 8:1919–1986
Biessmann F, Rukat T, Schmidt P et al (2019) Datawig: missing value imputation for tables. J Mach Learn Res 20(175):1–6
van Buuren S, Boshuizen HC, Knook DL (1999) Multiple imputation of missing blood pressure covariates in survival analysis. Statist Med 18(6):681–94
Campello RJGB, Moulavi D, Sander J (2013) Density-based clustering based on hierarchical density estimates. In: Advances in knowledge discovery and data mining. Springer, pp 160–172
Carreira-Perpiñán MÁ (2015) A review of mean-shift algorithms for clustering. In: CRC Handbook of cluster analysis. CRC Press, Boca Raton, Florida
Chacón JE, Duong T (2020) Multivariate kernel smoothing and its applications, Monogr. Stat. Appl. Probab., vol 160. Chapman and Hall/CRC
Chau VTN, Loc PH, Tran VTN (2015) A robust mean shift-based approach to effectively clustering incomplete educational data. In: International conference on advanced computing and applications (ACOMP), pp 12–19
Comaniciu D, Meer P (2002) Mean shift: a robust approach toward feature space analysis. IEEE Trans Pattern Anal Mach Intell 24(5):603–619
Dietterich TG (1998) Approximate statistical tests for comparing supervised classification learning algorithms. Neural Comput 10(7):1895–1923
Fashing M, Tomasi C (2005) Mean shift is a bound optimization. IEEE Trans Pattern Anal Mach Intell 27(3):471–474
Fukunaga K, Hostetler LD (1975) The estimation of the gradient of a density function, with applications in pattern recognition. IEEE Trans Inf Theory 21(1):32–40
Günnemann S, Müller E, Raubach S, et al. (2011) Flexible fault tolerant subspace clustering for data with missing values. In: 11th IEEE International Conference on Data Mining, pp 231–240
Hathaway RJ, Bezdek JC (2001) Fuzzy c-means clustering of incomplete data. IEEE Cybern 31(5):735–744
Helm MS, Dankovich TM, Mandad S et al (2021) A large-scale nanoscopy and biochemistry analysis of postsynaptic dendritic spines. Nat Neurosci 24:1151–1162
Himmelspach L, Conrad S (2010) Clustering approaches for data with missing values: comparison and evaluation. In: 5th International conference on digital information management (ICDIM)
Hubert L, Arabie P (1985) Comparing partitions. J Classif 2:193–218
Jadhav A, Pramod D, Ramanathan K (2019) Comparison of performance of data imputation methods for numeric dataset. Appl Artif Intell 33(1):913–933
Jäger S, Allhorn A, Bießmann F (2021) A benchmark for data imputation methods. Frontiers in Big Data 4
Leibrandt K, Lorenz T, Nierhoff T, et al. (2013) Modelling human gameplay at pool and countering it with an anthropomorphic robot. In: Social robotics. Springer, pp 30–39
Leibrandt R, Günnemann S (2018) Making kernel density estimation robust towards missing values in highly incomplete multivariate data without imputation. In: SIAM International Conference on Data Mining
Leibrandt R, Günnemann S (2020) Gauss shift: Density attractor clustering faster than mean shift. In: Eur. Conf. Princ. Pract. Knowl. Discov. Databases
Liao L, Li K, Li K, et al. (2018) A multiple kernel density clustering algorithm for incomplete datasets in bioinformatics. BMC Syst Biol 12(111)
Loader CR (1999) Bandwidth selection: classical or plug-in? Ann Stat 27(2):415–438
Muzellec B, Josse J, Boyer C et al. (2020) Missing data imputation using optimal transport. International Conference on Machine Learning PMLR, pp 7130–7140
Pedregosa F, Varoquaux G, Gramfort A et al (2011) Scikit-learn: machine learning in Python. J Mach Learn Res 12:2825–2830
Poulos J, Valle R (2018) Missing data imputation for supervised learning. Appl Artif Intell 32(2):186–196
Romano S, Bailey J, Nguyen V, et al. (2014) Standardized mutual information for clustering comparisons: one step further in adjustment for chance. In: International Conference on Machine Learning, pp 1143–1151
Romano S, Vinh NX, Bailey J et al (2016) Adjusting for chance clustering comparison measures. J Mach Learn Res 17(134):1–32
Rubin DB (1976) Inference and missing data. Biometrika 63(3):581–592
Schelter S, Rukat T, Biessmann F (2020) Learning to validate the predictions of black box classifiers on unseen data. In: ACM SIGMOD International Conference on Management of Data, p 1289-1299
Schnupp P, Leibrandt U (1988) Expertensysteme: Nicht nur für Informatiker. Springer, Springer Compass
Shortliffe EH, Buchanan BG (1975) A model of inexact reasoning in medicine. Math Biosci 23(3–4):351–379
Stack Overflow (2021) Stack Overflow developer survey 2021. https://insights.stackoverflow.com/survey
Steinley D, Brusco MJ, Hubert L (2016) The variance of the adjusted rand index. Psychol Methods 21(2):261–72
Timm H, Döring C, Kruse R (2002) Fuzzy cluster analysis of partially missing datasets. In: 2nd Int. W. on Hybr. Meth. for Adap. Sys. I, pp 426–431
Wagstaff KL (2004) Clustering with missing values: no imputation required. In: Meet. Int. Fed. Classif. Soc., pp 649–658
Wand M, Jones MC (1995) Kernel Smoothing. Chapman and Hall/CRC
Xue Z, Wang H (2021) Effective density-based clustering algorithms for incomplete data. Big Data Min Anal 4(3):183–194
Yang L, Hou K (2018) A method of incomplete data three-way clustering based on density peaks. In: International conference on computer-aided design, manufacturing, Modeling and Simulation, p 020008