CFSBC: Phân cụm trong không gian cao chiều dựa trên tập hợp mục thường xuyên đóng

EDP Sciences - Tập 9 - Trang 590-594 - 2004
Ni Wei-wei1, Sun Zhi-hui1
1Department of Computer Science and Engineering, Southeast University, Nanjing, Jiangsu, China

Tóm tắt

Phân cụm trong không gian cao chiều là một lĩnh vực quan trọng trong khai thác dữ liệu. Đây là quá trình khám phá các nhóm trong một tập dữ liệu cao chiều, sao cho sự tương đồng giữa các phần tử trong cùng một cụm là tối đa và giữa các cụm khác nhau là tối thiểu. Nhiều thuật toán phân cụm không áp dụng được cho không gian cao chiều do tính phân tán và sự suy giảm của nó. Giảm chiều là một phương pháp hiệu quả để giải quyết vấn đề này. Bài báo đề xuất một thuật toán phân cụm mới có tên là CFSBC dựa trên các tập hợp mục thường xuyên đóng được xác định từ khai thác quy tắc kết hợp, có khả năng lấy được các thuộc tính phân cụm với hiệu quả cao. Thuật toán này có một số ưu điểm. Đầu tiên, nó giải quyết hiệu quả vấn đề giảm chiều. Thứ hai, nó có thể áp dụng cho nhiều loại thuộc tính khác nhau. Thứ ba, nó phù hợp cho các tập dữ liệu rất lớn. Thí nghiệm cho thấy thuật toán được đề xuất là hiệu quả và hiệu suất cao.

Từ khóa

#phân cụm #không gian cao chiều #khai thác dữ liệu #tập hợp mục thường xuyên đóng #giảm chiều

Tài liệu tham khảo

Zhang T, Ramakrishnan R, Livny M B. An Efficient Data Clustering Method for Very Large Databases.Proc. of the 1996 ACM SIGMOD Int’l Conf on Management of Data 1996,6(4): 89791–89794 Kaufman L, Roussceuw P J.Finding Groups in Data: An. Introduction to Cluster Analysis. New York: John Wiley & Sons, 1990. Han J W, Kambr M.Data Mining Concepts and Techniques. Beijing: Higher Education Press, 2001, 140–186. Ester M, Kriegel H P, Sander J,et al. A Density-Based Algorithm for Discovering Clusterers in Large Spatial Databases.Proc of the 2 nd Int’l Conf on KDD. Portland: AAAI Press, 1996. 226–231. Srikant R. Agrawal R. Mining Quantitative Association Rules in Large Relational Tables.The ACM SIGMOD Conf on Management of Data, http://citeseer.ist.psu.edu/srilcant/96mining.html, 1996. Agrawa R, Imielinski I T, Swami A. Mining Association Rules Between Sets of Items in Large Databases.Proc of the ACM SIGMOG conf on Management of Data, Washington D. C. May, 1993. Agrawal R, Srikant R. Fast Algorithms for Mining Association Rules in Large Databases.Proc 20 th Int’l VLDB, New York, Sept, 1994. Agrawal R, Gehrke J, Gunopulos D,et al. Automatic Subspace Clustering of High Dimensional Data for Data Mining ApplicationsProc of the 1998ACM SIGMOG Int’l Conf on Management of Data, New York, 1998.