CLARANS: một phương pháp phân cụm đối tượng cho khai thác dữ liệu không gian

IEEE Transactions on Knowledge and Data Engineering - Tập 14 Số 5 - Trang 1003-1016 - 2002
R.T. Ng1, Jiawei Han2
1Department of Computer Science, University of British Columbia, Vancouver, BC, Canada
2School of Computing Sciences, Simon Fraser University, Burnaby, BC, Canada

Tóm tắt

Khai thác dữ liệu không gian là quá trình phát hiện những mối quan hệ và đặc điểm thú vị có thể tồn tại ngầm trong các cơ sở dữ liệu không gian. Để đạt được điều này, bài báo này có ba đóng góp chính. Thứ nhất, nó đề xuất một phương pháp phân cụm mới gọi là CLARANS, nhằm xác định các cấu trúc không gian có thể có trong dữ liệu. Kết quả thực nghiệm chỉ ra rằng, khi so sánh với các phương pháp phân cụm hiện có, CLARANS rất hiệu quả và hiệu quả. Thứ hai, bài báo điều tra cách CLARANS có thể xử lý không chỉ các đối tượng điểm mà còn cả các đối tượng đa giác một cách hiệu quả. Một trong những phương pháp được xem xét, gọi là xấp xỉ IR, rất hiệu quả trong việc phân cụm các đối tượng đa giác lồi và không lồi. Thứ ba, dựa trên CLARANS, bài báo phát triển hai thuật toán khai thác dữ liệu không gian nhằm khám phá mối quan hệ giữa các thuộc tính không gian và phi không gian. Cả hai thuật toán đều có thể phát hiện ra kiến thức khó tìm với các thuật toán khai thác dữ liệu không gian hiện có.

Từ khóa

#Data mining #Clustering algorithms #Spatial databases #Clustering methods #Image databases #Computer Society #Computational geometry #Satellites #Biomedical equipment #Cameras

Tài liệu tham khảo

10.1145/276304.276314 10.1109/ICDE.1994.283045 kirkpatrick, 1993, Tentative Prune-and-Search for Computing Fixed-Points with Applications to Geometric Computation, Proc Ninth ACM Symp Computational Geometry, 133142 10.1109/WISEW.2003.1286805 lu, 1993, Discovery of General Knowledge in Large Spatial Databases, Proc Far East Workshop Geographic Information Systems, 275289 10.1007/BF02294245 ng, 1994, Efficient and Effective Clustering Methods for Spatial Data Mining, Proc 20th Conf Very Large Databases, 144155 piatetsky-shapiro, 1991, Knowledge Discovery in Databases 10.1109/TCBB.2004.12 samet, 1990, The Design and Analysis of Spatial Data Structures sheikholeslami, 1998, WaveCluster: A Multi-Resolution Clustering Approach for Very Large Spatial Databases, Proc 1998 Conf Very Large Databases, 428439 spath, 1985, Cluster Dissection and Analysis Theory FORTRAN Programs Examples hinneburg, 1998, An Efficient Approach to Clustering in Large Multimedia Databases with Noise, Proc 1998 Int'l Conf Knowledge Discovery and Data Mining, 5865 zhang, 1996, BIRCH: an Efficient Data Clustering Method for Very Large Databases, Proc ACM Special Interest Group on Management of Data, 103114 10.1145/170035.170072 10.1145/93597.98740 agrawal, 1992, An Interval Classifier for Database Mining Applications, Proc 18th Conf Very Large Databases, 560573 10.1109/ICDE.1993.344078 wang, 1997, STING: A Statistical Information Grid Approach to Spatial Data Mining, Proc 23rd Conf Very Large Databases, 186195 10.1109/MDM.2007.46 han, 1992, Knowledge Discovery in Databases: an Attribute-Oriented Approach, Proc 18th Conf Very Large Databases, 547559 yu, 1996, Finding Strong, Common and Discriminating Characteristics of Clusters from Thematic Maps 10.1145/304182.304187 bradley, 1998, Scaling Clustering Algorithms to Large Databases, Proc Fourth Int'l Conf Knowledge Discovery and Data Mining, 915 ester, 1996, A Density-Based Algorithm for Discovering Large Clusters in Large Spatial Databases with Noise, Proc Second Int'l Conf Knowledge Discovery and Data Mining 10.1145/170035.170073 10.1145/276304.276312 10.1016/0196-6774(85)90007-0 ester, 1995, Knowledge Discovery in Large Spatial Databases: Focusing Techniques for Efficient Class Identification, Proc Fourth Int'l Symp Large Spatial Databases (SSD '95), 6782 10.1145/170035.170075 kaufman, 1990, Finding Groups in Data An Introduction to Cluster Analysis 10.1145/38713.38722 10.1109/2.781637