Một phương pháp kiểm tra tính phân biệt của các cụm: Kiểm tra sự phân ly của hai cụm trong không gian Euclide được đo bằng sự chồng chéo của chúng

P. H. A. Sneath1
1Department of Microbiology, University of Leicester, Leicester, UK

Tóm tắt

Một phương pháp được mô tả để kiểm tra tính phân biệt của hai cụm trong không gian Euclide. Đầu tiên, người ta tính toán các phép chiếu, q, của N1 và N2 thành viên của các cụm lên đường thẳng nối các tâm cụm. Từ các phân phối của q, một chỉ số phân ly, W, được tính toán, tương ứng với một chỉ số chồng chéo, VG. Đại lượng W√(N1+N2) phân phối theo phân phối t không trung tâm tùy thuộc vào những giả định về phân phối chuẩn đa biến của các cụm. Điều này cho phép một bài kiểm tra xem sự phân ly quan sát được có lớn hơn một giá trị đã chọn một cách có ý nghĩa hay không, điều này tương đương với việc kiểm tra xem sự chồng chéo của các cụm có ít hơn một giá trị tương ứng của VG một cách có ý nghĩa hay không. Hai cụm có vẻ phân biệt có thể chỉ đơn giản được tạo ra bằng cách phân chia một đàn đồng nhất thành hai khu vực liền kề. Với điều kiện rằng các cụm tạo thành một phân đôi trong một cây phân nhóm, và rằng phương pháp phân cụm tạo ra các cụm lồi về mặt hình học, một bài kiểm tra bảo thủ cho tình huống này có thể được rút ra bằng cách xác định lượng W vượt quá giá trị mong đợi cho một phân phối hình chữ nhật.

Từ khóa

#phương pháp kiểm tra #tính phân biệt #cụm #không gian Euclide #chỉ số phân ly #sự chồng chéo

Tài liệu tham khảo

Anderson, T. W., 1958, An introduction to multivariate statistical analysis: John Wiley, New York, 374 p. Aspin, A. A., 1949, Tables for use in comparisons whose accuracy involves two variables, separately estimated: Biometrika, v. 36, p. 290–293. Baker, F. B., and Hubert, L. J., 1975, Measuring the power of hierarchical cluster analysis: J. Amer. Statist. Assoc., v. 70, p. 31–38. Borchardt, G. A., Aruscavage, P. J., and Millard, H. T., Jr., 1972, Correlation of the Bishop Ash, a Pleistocene marker bed, using instrumental neutron activation analysis: J. Sediment. Petrol., v. 42, p. 301–306. Cochran, W. G., and Cox, G. M., 1957, Experimental designs (2nd ed.): John Wiley, New York, 612 p. Day, N. E., 1969, Estimating the components of a mixture of normal distributions: Biometrika, v. 56, p. 463–474. Engelman, L., and Hartigan, J. A., 1969, Percentage points of a test for clusters: J. Amer. Statist. Assoc., v. 64, p. 1647–1648. Fisher, L., and Van Ness, J. W., 1973, Admissible discriminant analysis: J. Amer. Statist. Assoc., v. 68, p. 603–607. Goodall, D. W., 1970, Cluster analysis using similarity and dissimilarity: Biometrie-Praximetrie, v. 11, p. 34–41. Gower, J. C., 1966, Some distance properties of latent root and vector methods used in multivariate analysis: Biometrika, v. 53, p. 325–338. Gower, J. C., 1971, A general coefficient of similarity and some of its properties: Biometrics, v. 27, p. 857–871. Johnson, N. L., and Welch, B. L., 1939, Applications of the non-centralt-distribution: Biometrika, v. 31, p. 362–389. Kendall, M. G., and Stuart, A., 1966, The advanced theory of statistics, v. 3: Griffin, London, 552 p. Lance, G. N., and Williams, W. T., 1967, A general theory of classificatory sorting strategies, I, Hierarchical systems: Computer Jour., v. 9, p. 373–380. Lehmer, A., 1944, Inverse tables of probabilities of errors of the second kind: Ann. Math. Statist., v. 15, p. 388–398. Ling, R. F., 1973, A probability theory of cluster analysis: J. Amer. Statist. Assoc., v. 68, p. 159–164. MacArthur, R. H., 1972, Geographical ecology: Harper & Row, New York, 269 p. Mehta, J. S., and Srinivasan, B., 1970, On the Behrens-Fisher problem: Biometrika, v. 57, p. 649–655. Merrington, M., and Pearson, E. S., 1958, An approximation to the distribution of noncentralt: Biometrika, v. 45, p. 484–491. Mountford, M. D., 1970, A test of the difference between clusters,in Patil, G. P., Pielou, E. C., and Waters, W. E., (eds.), Statistical ecology, v. 3: Pennsylvania University Press, University Park, Pennsylvania, p. 237–257. Orlocci, L., 1967, Data centering: a review and evaluation with reference to component analysis: Syst. Zool., v. 16, p. 208–212. Owen, D. B., 1962, Handbook of statistical tables: Addison-Wesley, Reading, Massachusetts, 580 p. Sneath, P. H. A., 1972, Computer taxonomy,in Norris, J. R., and Ribbons, D. W., (eds.), Methods in microbiology, v. 7A: Academic Press, London, p. 29–98. Sneath, P. H. A., 1974, Test reproducibility in relation to identification: Int. J. Syst. Bacteriol., v. 24, p. 508–523. Sneath, P. H. A., and Johnson, R., 1972, The influence on numerical taxonomic similarities of errors in microbiological tests: J. Gen. Microbiol., v. 72, p. 377–392. Sneath, P. H. A., and Sokal, R. R., 1973, Numerical taxonomy: W. H. Freeman, San Francisco, 573 p. Stevens, M., 1969, Development and use of multi-inoculation test methods for a taxonomy study: J. Med. Lab. Technol., v. 26, p. 253–263. Tang, P. C., 1938, The power function of the analysis of variance tests with tables and illustrations of their use: Statist. Res. Mem., v. 2, p. 126–149. Turner, M. E., 1969, Credibility and cluster: Ann. New York Acad. Sci., v. 161, p. 680–688. Webster, R., 1971, Wilk's criterion: a measure for comparing the value of general purpose soil classifications: J. Soil Sci., v. 22, p. 254–260. Welch, B. L., 1947, The generalization of ‘Student's’ problem when several different population variances are involved: Biometrika, v. 34, p. 28–35. Welch, B. L., 1949, Further note on Mrs. Aspin's tables and on certain approximations to the tabled function: Biometrika, v. 36, p. 293–296. Williams, W. T., Clifford, H. T., and Lance, G. N., 1971, Group-size dependence: a rationale for choice between numerical classifications: Computer J., v. 14, p. 157–162. Williams, W. T., and Dale, M. B., 1965, Fundamental problems in numerical taxonomy: Advanc. Bot. Res., v. 2, p. 35–68. Wolfe, J. H., 1970, Pattern clustering by multivariate mixture analysis: Multiv. Behav. Res., v. 5, p. 329–350.