Hỗ trợ hiệu quả và tiết kiệm cho các thao tác roll-up và drill-down OLAP trên các chiều liên tục thông qua phân cụm phân cấp

Journal of Intelligent Information Systems - Tập 44 - Trang 309-333 - 2013
Michelangelo Ceci1, Alfredo Cuzzocrea2, Donato Malerba1
1University of Bari Aldo Moro, Bari, Italy
2ICAR-CNR and University of Calabria, Rende, Italy

Tóm tắt

Trong các hệ thống OLAP truyền thống, các thao tác roll-up và drill-down trên các khối dữ liệu khai thác các phân cấp cố định được định nghĩa trên các thuộc tính rời rạc, những thuộc tính này đóng vai trò là các chiều và hoạt động dọc theo chúng. Các kịch bản ứng dụng mới nổi, chẳng hạn như mạng cảm biến, đã kích thích nghiên cứu về các hệ thống OLAP, trong đó ngay cả các thuộc tính liên tục cũng được coi là các chiều phân tích, và các phân cấp được định nghĩa trên các miền liên tục. Mục tiêu là tránh việc định nghĩa trước một phân cấp rời rạc tự phát dọc theo mỗi chiều OLAP. Theo xu hướng nghiên cứu này, trong bài báo này, chúng tôi đề xuất một phương pháp mới, dựa trên thuật toán phân cụm phân cấp dựa trên mật độ, để hỗ trợ các thao tác roll-up và drill-down trên các khối dữ liệu OLAP với các chiều liên tục. Phương pháp này phân cụm các thể hiện chiều theo cách phân cấp, đồng thời cũng xem xét các phép đo trong bảng thực tế. Do đó, chúng tôi nâng cao hiệu quả phân cụm liên quan đến các phân tích có thể có. Các thí nghiệm trên hai tập dữ liệu đa chiều nổi tiếng cho thấy rõ ràng những lợi thế của giải pháp được đề xuất.

Từ khóa


Tài liệu tham khảo

Agrawal, R., & Srikant, R. (1994). Fast algorithms for mining association rules in large databases. In J.B. Bocca, M. Jarke, C. Zaniolo (Eds.), VLDB’94, Proceedings of 20th international conference on very large data bases, 12–15 Sept 1994, Santiago de Chile, Chile (pp. 487–499). Morgan Kaufmann. Agrawal, R., Gehrke, J., Gunopulos, D., Raghavan, P. (2005). Automatic subspace clustering of high dimensional data. Data Mining and Knowledge Discovery, 11(1), 5–33. Armbrust, M., Fox, A., Griffith, R., Joseph, A.D., Katz, R.H., Konwinski, A., Lee, G., Patterson, D.A., Rabkin, A., Stoica, I., Zaharia, M. (2010). A view of cloud computing. Communications of the ACM, 53(4), 50–58. Broder, A.Z. (2002). A taxonomy of web search. SIGIR Forum, 36(2), 3–10. Cattell, R. (2010). Scalable sql and nosql data stores. SIGMOD Record, 39(4), 12–27. Chaudhuri, S., & Dayal, U. (1997). An overview of data warehousing and olap technology. SIGMOD Record, 26(1), 65–74. Chen, Q., Dayal, U., Hsu, M. (2000). An olap-based scalable web access analysis engine. In Y. Kambayashi, M.K. Mohania, A.M. Tjoa (Eds.), DaWaK, Lecture notes in computer science (Vol. 1874, pp. 210–223). Springer. Cuzzocrea, A. (2006). Improving range-sum query evaluation on data cubes via polynomial approximation. Data and Knowledge Engineering, 56(2), 85–121. Cuzzocrea, A., & Serafino, P. (2011). Clustcube: An olap-based framework for clustering and mining complex database objects. In SAC. Cuzzocrea, A., & Wang, W. (2007). Approximate range-sum query answering on data cubes with probabilistic guarantees. Journal of Intelligent Information Systems, 28(2), 161–197. Cuzzocrea, A., Saccà, D., Serafino, P. (2007). Semantics-aware advanced olap visualization of multidimensional data cubes. International Journal of Data Warehousing and Mining, 3(4), 1–30. Cuzzocrea, A., Furfaro, F., Saccà, D. (2009). Enabling olap in mobile environments via intelligent data cube compression techniques. Journal of Intelligent Information Systems, 33(2), 95–143. Delis, A., Faloutsos, C., Ghandeharizadeh, S., (Eds.) (1999). In SIGMOD 1999, proceedings ACM SIGMOD international conference on management of data, 1–3 June 1999. Philadelphia, PA: ACM Press. Dong, G., Han, J., Lam, J.M.W., Pei, J., Wang, K. (2001). Mining multi-dimensional constrained gradients in data cubes. In P.M.G. Apers, P. Atzeni, S. Ceri, S. Paraboschi, K. Ramamohanarao, R.T. Snodgrass (Eds.), VLDB (pp. 321–330). Morgan Kaufmann. Ester, M., Kriegel, H.-P., Sander, J., Xu, X. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. In KDD (pp. 226–231). Ester, M., Kriegel, H.-P., Sander, J., Wimmer, M., Xu, X. (1998). Incremental clustering for mining in a data warehousing environment. In A. Gupta, O. Shmueli, J. Widom (Eds.), VLDB (pp. 323–333). Morgan Kaufmann. Gao, B., Liu, T.-Y., Ma, W.-Y. (2006). Star-structured high-order heterogeneous data co-clustering based on consistent information theory. In Proceedings of the 6th International Conference on Data Mining, ICDM ’06 (pp. 880–884). Washington, DC: IEEE Computer Society. Goil, S., & Choudhary, A.N. (2001). Parsimony: an infrastructure for parallel multidimensional analysis and data mining. Journal of Parallel and Distributed Computing, 61(3), 285–321. Gray, J., Chaudhuri, S., Bosworth, A., Layman, A., Reichart, D., Venkatrao, M., Pellow, F., Pirahesh, H. (1997). Data cube: a relational aggregation operator generalizing group-by, cross-tab, and sub totals. Data Mining and Knowledge Discovery, 1(1), 29–53. Guha, S., Rastogi, R., Shim, K. (2001). Cure: an efficient clustering algorithm for large databases. Information Systems, 26(1), 35–58. Gunopulos, D., Kollios, G., Tsotras, V.J., Domeniconi, C. (2005). Selectivity estimators for multidimensional range queries over real attributes. VLDB Journal, 14(2), 137–154. Han, J. (1998). Towards on-line analytical mining in large databases. SIGMOD Record, 27(1), 97–107. Han, J., Chee, S.H.S., Chiang, J.Y. (1998). Issues for on-line analytical mining of data warehouses (extended abstract). In SIGMOD’98 workshop on research issues on Data Mining and Knowledge Discovery (DMKD’98). Hinneburg, A., & Keim, D.A. (1999). Clustering methods for large databases: From the past to the future. In A. Delis, C. Faloutsos, S. Ghandeharizadeh (Eds.), SIGMOD 1999, Proceedings ACM SIGMOD international conference on management of data, 1–3 June 1999, Philadelphia, PA, USA (p. 509). ACM Press. Ienco, D., Robardet, C., Pensa, R., Meo, R. (2012). Parameter-less co-clustering for star-structured heterogeneous data. Data Mining and Knowledge Discovery, 26(2), 1–38. Imieliński, T., Khachiyan, L., Abdulghani, A. (2002). Cubegrades: generalizing association rules. Data Mining and Knowledge Discovery, 6(3), 219–257. Kotidis, Y., & Roussopoulos, N. (2013). Dynamat: A dynamic view management system for data warehouses. In A. Delis, C. Faloutsos, S. Ghandeharizadeh (Eds.), SIGMOD 1999, proceedings ACM SIGMOD international conference on management of data, 1–3 June 1999, Philadelphia, PA, USA (pp. 371–382). ACM Press. Kriegel, H.-P., Kröger, P., Zimek, A. (2009). Clustering high-dimensional data: a survey on subspace clustering, pattern-based clustering, and correlation clustering. Transactions on Knowledge Discovery from Data, 3(1), Article 1. Messaoud, R.B., Rabaséda, S.L., Boussaid, O., Missaoui, R. (2006). Enhanced mining of association rules from data cubes. In I.-Y. Song, P. Vassiliadis (Eds.), DOLAP (pp. 11–18). ACM. Ng, R.T. & Han, J. (2002). Clarans: a method for clustering objects for spatial data mining. IEEE Transactions on Knowledge and Data Engineering, 14(5), 1003–1016. Parsaye, K. (1997). Olap and data mining: bridging the gap. Database Programming and Design, 10, 30–37. Pio, G., Ceci, M., Loglisci, C., D’Elia, D., Malerba, D. (2012). Hierarchical and overlapping co-clustering of mrna: mirna interactions. In L.D. Raedt, C. Bessière, D. Dubois, P. Doherty, P. Frasconi, F. Heintz, P.J.F. Lucas (Eds.), ECAI, frontiers in artificial intelligence and applications (Vol. 242, pp. 654–659). IOS Press. Pio, G., Ceci, M., D’Elia, D., Loglisci, C., Malerba, D. (2013). A novel biclustering algorithm for the discovery of meaningful biological correlations between micrornas and their target genes. BMC Bioinformatics, 14(Suppl 7), S8. Sarawagi, S. (2001). idiff: Informative summarization of differences in multidimensional aggregates. Data Mining and Knowledge Discovery, 5(4), 255–276. Sarawagi, S., Agrawal, R., Megiddo, N. (1998). Discovery-driven exploration of olap data cubes. In H.-J. Schek, F. Saltor, I. Ramos, G. Alonso (Eds.), EDBT, Lecture notes in computer science (Vol. 1377, pp. 168–182). Springer. Shanmugasundaram, J., Fayyad, U.M., Bradley, P.S. (1999). Compressed data cubes for olap aggregate query approximation on continuous dimensions. In KDD (pp. 223–232). Sheikholeslami, G., Chatterjee, S., Zhang, A. (2000). Wavecluster: a wavelet based clustering approach for spatial data in very large databases. VLDB Journal, 8(3–4), 289–304. SPAETH (2013). Cluster Analysis Datasets. Available at: http://people.sc.fsu.edu/~jburkardt/datasets/spaeth/spaeth.html. Stojanova, D., Ceci, M., Appice, A., Dzeroski, S. (2011). Network regression with predictive clustering trees. In D. Gunopulos, T. Hofmann, D. Malerba, M. Vazirgiannis (Eds.), ECML/PKDD (3), Lecture notes in computer science (Vol. 6913, pp. 333–348). Springer. Stojanova, D., Ceci, M., Appice, A., Dzeroski, S. (2012). Network regression with predictive clustering trees. Data Mining and Knowledge Discovery, 25(2), 378–413. Vens, C., Schietgat, L., Struyf, J., Blockeel, H., Kocev, D., Dzeroski, S. (2010). Predicting gene functions using predictive clustering trees. Springer. Watson, H.J., & Wixom, B. (2007). The current state of business intelligence. IEEE Computer, 40(9), 96–99. Yin, X., Han, J., Yu, P.S. (2007). Crossclus: user-guided multi-relational clustering. Data Mining and Knowledge Discovery, 15(3), 321–348. Zhang, T., Ramakrishnan, R., Livny, M. (1996). Birch: An efficient data clustering method for very large databases. In H. V. Jagadish, I. S. Mumick (Eds.), SIGMOD conference (pp. 103–114). ACM Press. Zhu, H. (1998). On-line analytical mining of association rules. M.Sc. thesis, Computing Science, Simon Fraser University.