So sánh đánh giá hai quy tắc dừng ưu việt cho phân tích cụm phân cấp

Robert S. Atlas1, John E. Overall1
1Department of Psychiatry and Behavioral Science, University of Texas-Houston Medical School, Houston

Tóm tắt

Một quy tắc dừng kiểu lặp mẫu phân chia cho phân tích cụm phân cấp được so sánh với tiêu chí nội bộ đã được phát hiện là vượt trội bởi Milligan và Cooper (1985) trong so sánh 30 quy trình khác nhau. Số lượng và mức độ chồng lấp của các phân phối quần thể tiềm ẩn đã được thay đổi một cách có hệ thống trong đánh giá tính hợp lệ của quy tắc dừng hiện tại. Cả tỷ lệ cơ bản quần thể đồng đều và không đồng đều cũng được xem xét. Cả hai quy tắc dừng đều xác định chính xác số lượng quần thể thực tế khi không có sự chồng lấp đáng kể và các cụm chiếm các vùng riêng biệt về mặt thị giác trong không gian đo. Tiêu chí lặp lại, được đánh giá bằng cách phân cụm các trung bình cụm từ các phân tích sơ bộ được thực hiện trên các phân vùng ngẫu nhiên của một tập dữ liệu gốc, đã vượt trội khi mức độ chồng chéo trong các phân phối quần thể tăng lên. Không phương pháp nào hoạt động đầy đủ khi chồng lấp làm mất đi các nút mật độ có thể nhận biết bằng mắt thường.

Từ khóa


Tài liệu tham khảo

Aldenderfer, M. S., & Blashfield, R. K. (1984).Cluster analysis. Beverly Hills, CA: Sage Publications. Bayne, R., Beauchamp, J., Begovich, C., & Kane, V. (1980). Monte Carlo comparisons of selected clustering procedures.Pattern Recognition, 12, 51–62. Blashfield, R. K. (1976). Mixture model tests of cluster analysis: Accuracy of four agglomerative hierarchical methods.Psychological Bulletin, 83, 377–388. Blashfield, R., & Morey, L. (1980). A comparison of four clustering methods using MMPI Monte Carlo data.Applied Psychological Measurement, 4, 57–64. Breckenridge, J. N. (1989). Replicating cluster analysis: Method, consistency and validity.Multivariate Behavioral Research, 24(2), 147–161. Calinski, R. B., & Harabasz, J. (1974). A dendrite method for cluster analysis.Communications in Statistics, 3, 1–27. Edelbrock, C. (1979). Comparing the accuracy of hierarchical clustering algorithms.Multivariate Behavioral Research, 14, 367–384. Everitt, B. (1980).Cluster analysis. New York: Halsted. Haggard, E. A. (1958).Intraclass correlation and the analysis of variance. New York, NY: The Dryden Press. Jain, A. K., & Dubes, R. C. (1988).Algorithms for clustering data. Englewood Cliffs, NJ: Prentice Hall. Kosko, B. (1992). Fuzziness and probability. InNeural networks and fuzzy systems (chap. 7). Englewood Cliffs, NJ: Prentice Hall. McIntyre, R. M., & Blashfield, R. K. (1980). A nearest-centroid technique for evaluating the minimum-variance clustering procedure.Multivariate Behavioral Research, 2, 225–238. Milligan, G. W. (1989). A study of the beta-flexible clustering method.Multivariate Behavioral Research, 24, 163–176. Milligan, G. W. (1980). An examination of the effects of six types of error perturbations on fifteen clustering algorithms.Psychometrika, 45, 325–342. Milligan, G. W., & Cooper, M. C. (1985). An examination of procedures for determining the number of clusters in a data set.Psychometrika, 50, 159–179. Mojena, R. (1977). Hierarchical grouping methods and stopping rules—an evaluation.Computer Journal, 20, 359–363. Overall, J. E., Gibson, J. M., & Novy, D. M. (In press). Population recovery capabilities of 35 cluster analysis methods.Journal of Clinical Psychology. Overall, J. E., & Klett, C. J. (1972).Applied multivariate analysis. New York: McGraw-Hill. Overall, J. E., & Magee, K. N. (1992). Replication as a rule for determining the number of clusters in hierarchical cluster analysis.Applied Psychological Measurement, 16, 119–128. Sneath, P. H. A., & Sokal, R. R. (1973).Numerical taxonomy. San Francisco: W. H. Freeman. Ward, J. H. (1963). Hierarchical grouping to optimize an objective function.Journal of the American Statistical Association, 58, 236–244.