Cụm k-modes động mới dành cho dữ liệu phân loại và không phân loại với lựa chọn đặc trưng dựa trên thuật toán di truyền tối ưu hóa

Multimedia Tools and Applications - Tập 81 - Trang 24399-24418 - 2022
G. Suryanarayana1, LNC Prakash K2, P. C. Senthil Mahesh3, T. Bhaskar4
1Department of CSE, Vardhaman College of Engineering, Hyderabad, India
2Department of CSE, CVR College of Engineering, Hyderabad, India
3Department of CSE, Excel Engineering College, Namakkal, India
4Department of CSE, CMR College of Engineering and Technology, Hyderabad, India

Tóm tắt

Phân cụm là một kỹ thuật phân tách tập dữ liệu được cung cấp thành các nhóm đồng nhất theo các đặc trưng đã cho. Mục tiêu của nó là xác định một cấu trúc trong một nhóm dữ liệu không có nhãn. Phân tích cụm là một công nghệ học không giám sát, xác định các mẫu thú vị trong các đối tượng dữ liệu mà không cần nhãn lớp. Thuật toán phân cụm k-modes có vẻ hiệu quả trong việc phân cụm dữ liệu phân loại nhờ vào việc thực hiện đơn giản và khả năng xử lý một lượng lớn dữ liệu. Tuy nhiên, do có tính chọn lọc ngẫu nhiên của các tâm khởi đầu, nó đưa ra giải pháp tối ưu cục bộ. Đóng góp chính của bài báo là đánh giá hiệu suất phân cụm trên nhiều tập dữ liệu khác nhau với hệ thống được đề xuất. Phương pháp được đề xuất sử dụng một thuật toán Metaheuristic dựa trên di truyền để chọn các đặc trưng phong phú và thuật toán phân cụm K modes động mới dựa trên PSO đã giảm kích thước cho quá trình phân cụm với thời gian tính toán tốt hơn. Khái niệm săn mồi vòng quanh đã được tích hợp để chọn hàm fitness và vượt qua những hạn chế của thuật toán di truyền trong chọn lựa đặc trưng. Bài báo này đã tích hợp thuật toán k-modes với thuật toán tối ưu đàn mẫu để đạt được một giải pháp tối ưu toàn cục và cập nhật tâm khởi đầu. Nhiều tập dữ liệu được sử dụng để đánh giá công trình được đề xuất đã được phát hiện có độ chính xác thấp trong công việc trước đó. Tuy nhiên, hiệu quả của phương pháp được đề xuất đã được chứng minh là tốt hơn bằng cách thực hiện phân tích so sánh với các phương pháp hiện đại về các chỉ số hiệu suất như điểm số F1, độ chính xác và NMI.

Từ khóa

#Phân cụm #k-modes #dữ liệu phân loại #thuật toán di truyền #lựa chọn đặc trưng.

Tài liệu tham khảo

Abualigah LM, Khader AT, Hanandeh ES (2018) A new feature selection method to improve the document clustering using particle swarm optimization algorithm. J Comput Sci 25:456–466 Agbaje MB, Ezugwu AE, Els R (2019) Automatic data clustering using hybrid firefly particle swarm optimization algorithm. IEEE Access 7:184963–184984 Ahmadyfard A, Modares H (2008) Combining PSO and k-means to enhance data clustering. 2008 Int Symp Telecomm:688–691 Alguliyev RM, Aliguliyev RM, Sukhostat LV (2020) Efficient algorithm for big data clustering on single machine. CAAI Trans Intell Technol 5:9–14 Bai L, Liang J, Cao F (2020) A multiple k-means clustering ensemble algorithm to find nonlinearly separable clusters. Inform Fusion 61:36–47 Cao F, Huang JZ, Liang J, Zhao X, Meng Y, Feng K et al (2017) An algorithm for clustering categorical data with set-valued features. IEEE Trans Neural Networks Learning Syst 29:4593–4606 Castro GT, Zárate LE, Nobre CN, Freitas HC (2019) A fast parallel K-modes algorithm for clustering nucleotide sequences to predict translation initiation sites. J Comput Biol 26:442–456 Ding Y, Zhou K, Bi W (2020) Feature selection based on hybridization of genetic algorithm and competitive swarm optimizer. Soft Comput 24:1–10 K. S. Dorman and R. Maitra, "An Efficient $ k $-modes Algorithm for Clustering Categorical Datasets," arXiv preprint arXiv:2006.03936, 2020. Ghany KKA, AbdelAziz AM, Soliman THA, Sewisy AAE-M (2020) A hybrid modified step whale optimization algorithm with Tabu search for data clustering. Journal of King Saud University-Computer and Information Sciences Gupta T, Panda SP (2018) A comparison of k-means clustering algorithm and clara clustering algorithm on iris dataset. Int J Eng Technol 7:4766–4768 He H, Tan Y (2017) Automatic pattern recognition of ECG signals using entropy-based adaptive dimensionality reduction and clustering. Appl Soft Comput 55:238–252 Heil J, Häring V, Marschner B, Stumpe B (2019) Advantages of fuzzy k-means over k-means clustering in the classification of diffuse reflectance soil spectra: a case study with west African soils. Geoderma 337:11–21 Hou J, Zhang A (2019) Enhancing density peak clustering via density normalization. IEEE Trans Industrial Inform 16:2477–2485 Islam MZ, Estivill-Castro V, Rahman MA, Bossomaier T (2018) Combining K-means and a genetic algorithm through a novel arrangement of genetic operators for high quality clustering. Expert Syst Appl 91:402–417 Jadhav AN, Gomathi N (2018) WGC: hybridization of exponential grey wolf optimizer with whale optimization for data clustering. Alexandria Eng J 57:1569–1584 Kumari S, Singh B (2020) Optimization of the distance between swarms using soft computing. Wirel Pers Commun:1–9 Kuo R, Zheng Y, Nguyen TPQ (2021) Metaheuristic-based possibilistic fuzzy k-modes algorithms for categorical data clustering. Inf Sci 557:1–15 Kurniati R, Arsalan O, Ramadhana Y (2021) Initial centroid determination using genetic algorithm in data clustering. Generic 13:6–9 Lai W, Zhou M, Hu F, Bian K, Song Q (2019) A new DBSCAN parameters determination method based on improved MVO. IEEE Access 7:104085–104095 Lakshmi K, Visalakshi NK, Shanthi S, Parvathavarthini S (2017) Clustering categorical data using k-modes based on cuckoo search optimization algorithm. ICTACT J Soft Computing 8 Liu C, Wang X, Huang Y, Liu Y, Li R, Li Y, … Liu J (2020) A moving shape-based robust fuzzy K-modes clustering algorithm for electricity profiles. Electr Power Syst Res 187:106425 Luchi D, Rodrigues AL, Varejão FM (2019) Sampling approaches for applying DBSCAN to large datasets. Pattern Recogn Lett 117:90–96 Naouali S, Salem SB, Chtourou Z (2020) Uncertainty mode selection in categorical clustering using the rough set theory. Expert Syst Appl 158:113555 Narayana GS, Kolli K (2020) Fuzzy K-means clustering with fast density peak clustering on multivariate kernel estimator with evolutionary multimodal optimization clusters on a large dataset. Multimed Tools Appl 80:1–19 Narayana GS, Vasumathi D (2016) Clustering for high dimensional categorical data based on text similarity. Proceed 2nd Int Conf Commun Inform Process:17–21 Narayana GS, Vasumathi D (2018) An attributes similarity-based K-medoids clustering technique in data mining. Arab J Sci Eng 43:3979–3992 Nock R, Nielsen F (2006) On weighting clustering. IEEE Trans Pattern Anal Mach Intell 28:1223–1235 Pal R, Yadav S, Karnwal R (2020) EEWC: energy-efficient weighted clustering method based on genetic algorithm for HWSNs. Complex Intell Syst 6:1–10 Panagiotakis C (2015) Point clustering via voting maximization. J Classif 32:212–240 Prasanna K, Kumar MSP, Narayana GS (2011) A novel benchmark K-means clustering on continuous data. Int J Comp Sci Eng (IJCSE) 3:2974–2977 Rahnema N, Gharehchopogh FS (2020) An improved artificial bee colony algorithm based on whale optimization algorithm for data clustering. Multimed Tools Appl 79:32169–32194 Sajidha S, Chodnekar SP, Desikan K (2018) Initial seed selection for K-modes clustering–a distance and density based approach. J King Saud Univ-Comp Inform Sci Sangaiah AK, Fakhry AE, Abdel-Basset M, El-henawy I (2019) Arabic text clustering using improved clustering algorithms with dimensionality reduction. Clust Comput 22:4535–4549 Sekaran R, Goddumarri SN, Kallam S, Ramachandran M, Patan R, Gupta D (2021) 5G integrated Spectrum selection and Spectrum access using AI-based frame work for IoT based sensor networks. Comput Netw 186:107649 Sinaga KP, Yang M-S (2020) Unsupervised K-means clustering algorithm. IEEE Access 8:80716–80727 Singh T (2021) A novel data clustering approach based on whale optimization algorithm. Expert Syst 38:e12657 Wang Q, Liu R, Chen M, Li X (2021) Robust rank-constrained sparse learning: a graph-based framework for single view and Multiview clustering. IEEE Trans Cybernetics H. Wilde, V. Knight, and J. Gillard (2020) A novel initialisation based on hospital-resident assignment for the k-modes algorithm," arXiv preprint arXiv:2002.02701 . Yuan F, Yang Y, Yuan T (2020) A dissimilarity measure for mixed nominal and ordinal attribute data in k-modes algorithm. Appl Intell 50:1498–1509 Zhao Y-P, Chen L, Chen CP (2020) Laplacian regularized nonnegative representation for clustering and dimensionality reduction. IEEE Trans Circ Syst Video Technol 31:1–14