IGA-SOMK + + : một phương pháp phân cụm mới để xây dựng hồ sơ người dùng web của người cao tuổi ở Trung Quốc

Yue Li1, Chengqi Liu2, Xinyue Hu1, Jianfang Qi3, Gong Chen1
1Institute of Population Research, Peking University, Beijing, China
2Vanke School of Public Health, Tsinghua University, Beijing, China
3College of Information and Electrical Engineering, China Agricultural University, Beijing, China

Tóm tắt

Khai thác dữ liệu người dùng và xây dựng hồ sơ người dùng web cho người cao tuổi từ góc độ dịch vụ người cao tuổi giúp hiểu rõ hơn về thói quen hành vi, nhu cầu và sở thích sử dụng web của họ, từ đó cung cấp dịch vụ chăm sóc người cao tuổi có mục tiêu hơn. Trong bài báo này, phương pháp phân cụm mới IGA-SOMK +  +  được đề xuất dựa trên dữ liệu khảo sát của Nghiên cứu Gia đình Trung Quốc (CFPS), bao gồm 6596 người cao tuổi trên 60 tuổi. Các khía cạnh dữ liệu được lựa chọn bao gồm thông tin cơ bản, tình hình công việc, tình trạng sức khỏe, thói quen sống và dịch vụ sử dụng web. Để mô tả hồ sơ người dùng web của người cao tuổi, một phương pháp hỗn hợp dựa trên thuật toán di truyền cải tiến (IGA) để chọn đặc trưng, bản đồ đặc trưng tự tổ chức (SOM) và K-means +  +  được đưa ra. Dữ liệu về hành vi sử dụng web của người cao tuổi được xử lý trước, và IGA được sử dụng để chọn đặc trưng dựa trên xác suất giao nhau và đột biến thích nghi. Sau đó, SOM được sử dụng để xác định các vector tâm khởi đầu của K-means +  +  cho việc phân cụm tiếp theo, được gọi là SOMK +  +  (SOM-K-means +  + ). Kết quả của IGA-SOMK +  +  được so sánh với các phương pháp hiện đại khác, bao gồm K-means, mini batch K-means, Agnes, K-modes, FCM, K-means +  + , SOMK +  +  và IHPSO-KM. Ngoài ra, tính đáng kể và độ vững chắc của IGA-SOMK +  +  cũng được phân tích. Kết quả thực nghiệm cho thấy việc lựa chọn đặc trưng IGA giảm thiểu tác động của các yếu tố đặc trưng dư thừa và cải thiện hiệu suất của thuật toán phân cụm. SOMK +  +  khắc phục độ nhạy của K-means đối với các tâm cụm ban đầu. Hơn nữa, IGA-SOMK +  +  có hiệu quả phân cụm tốt nhất trong số các thuật toán đã so sánh về chỉ số silhouette (SC), chỉ số calinski-harabaz (CH) và các tiêu chuẩn davies-bouldin (DB). Ví dụ, nó làm tăng SC từ 0.280 lên 0.629. Cuối cùng, bằng cách phân tích các kết quả, nhóm người dùng người cao tuổi được phân khúc để thực hiện khai thác sâu dữ liệu CFPS, xác minh tính khả thi của mô hình hồ sơ người dùng. Bài báo tóm tắt tình hình cơ bản về việc truy cập web hiện tại của người cao tuổi ở Trung Quốc dựa trên dịch vụ sử dụng web, cũng như tầm quan trọng của web trong cuộc sống của họ và trong các kênh thông tin. Nó cũng cung cấp các gợi ý cho những vấn đề hiện tại mà người cao tuổi gặp phải trong việc truy cập web.

Từ khóa

#người cao tuổi #hồ sơ người dùng web #phân cụm #thuật toán di truyền cải tiến #bản đồ tự tổ chức

Tài liệu tham khảo

Martín AG, Fernández-Isabel A, de Diego IM, Beltrán M (2021) A survey for user behavior analysis based on machine learning techniques: current models and applications. Appl Intell 51(8):6029–6055. https://doi.org/10.1007/s10489-020-02160-x Cen X, Chen Z, Chen H, Ding C, Ding B, Li F, Lou F, Zhu Z, Zhang H, Hong B (2024) User repurchase behavior prediction for integrated energy supply stations based on the user profiling method. Energy 286:129625. https://doi.org/10.1016/j.energy.2023.129625 Müller JM, Pommeranz B, Weisser J, Voigt KI (2018) Digital, social media, and mobile marketing in industrial buying: still in need of customer segmentation? empirical evidence from Poland and Germany. Ind Mark Manage 73:70–83. https://doi.org/10.1016/j.indmarman.2018.01.033 Maione C, Nelson DR, Barbosa RM (2019) Research on social data by means of cluster analysis. Appl Comput lnf 15(2):153–162. https://doi.org/10.1016/j.aci.2018.02.003 Liu G, Yang J, Hao Y, Zhang Y (2018) Big data-informed energy efficiency assessment of China industry sectors based on K-means clustering. J Clean Prod 183:304–314. https://doi.org/10.1016/j.jclepro.2018.02.129 Ping Y, Li H, Hao B, Guo C, Wang B (2024) Beyond K-means++: towards better cluster exploration with geometrical information. Pattern Recogn 146:110036. https://doi.org/10.1016/j.patcog.2023.110036 Liu J, Li D, Shan W, Liu S (2024) A feature selection method based on multiple feature subsets extraction and result fusion for improving classification performance. Appl Soft Comput 150:111018. https://doi.org/10.1016/j.asoc.2023.111018 Priyanga PS, Krithivasan K, Pravinraj S, Shankar SVS (2020) Detection of cyberattacks in industrial control systems using enhanced principal component analysis and hypergraph-based convolution neural network (EPCA-HG-CNN). IEEE Trans Ind Appl 56(4):4394–4404. https://doi.org/10.1109/tia.2020.2977872 Zhu Y, Hu X, Zhang Y, Li P (2018) Transfer learning with stacked reconstruction independent component analysis. Knowl-Based Syst 152:100–106. https://doi.org/10.1016/j.knosys.2018.04.010 Sun K, Zhang J, Yong H, Liu J (2019) FPCANet: fisher discrimination for principal component analysis network. Knowl-Based Syst 166:108–117. https://doi.org/10.1016/j.knosys.2018.12.015 Yazici A, Zhumabekova D, Nurakhmetova A, Yergaliyev Z, Yatbaz HY, Makisheva Z, Lewis M, Ever E (2023) A smart e-health framework for monitoring the health of the elderly and disabled. Internet of Things 24:100971. https://doi.org/10.1016/j.iot.2023.100971 Díaz-Prieto C, García-Sánchez JN (2016) Psychological profiles of older adult Web 2.0 tool users. Comput Hum Behav 64:673–681. https://doi.org/10.1016/j.chb.2016.07.007 Huvila I, Enwald H, Eriksson-Backa K, Hirvonen N, Nguyen H, Scandurra I (2018) Anticipating ageing: older adults reading their medical records. Inf Process Manage 54(3):394–407. https://doi.org/10.1016/j.ipm.2018.01.007 Castillo-García G, Morán-Fernández L, Bolón-Canedo V (2023) Feature selection for domain adaptation using complexity measures and swarm intelligence. Neurocomputing 548:126422. https://doi.org/10.1016/j.neucom.2023.126422 Wutzl B, Leibnitz K, Rattay F, Kronbichler M, Murata M, Golaszewski SM (2019) Genetic algorithms for feature selection when classifying severe chronic disorders of consciousness. PLoS ONE 14(7):e0219683. https://doi.org/10.1371/journal.pone.0219683 Nssibi M, Manita G, Korbaa O (2023) Advances in nature-inspired metaheuristic optimization for feature selection problem: a comprehensive survey. Comput Sci Rev 49:100559. https://doi.org/10.1016/j.cosrev.2023.100559 Agrawal RK, Kaur B, Sharma S (2020) Quantum based whale optimization algorithm for wrapper feature selection. Appl Soft Comput 89:106092. https://doi.org/10.1016/j.asoc.2020.106092 Zhu QH, Yang YB (2018) Discriminative embedded unsupervised feature selection. Pattern Recogn Lett 112:219–225. https://doi.org/10.1016/j.patrec.2018.07.018 Manoj RJ, Praveena MDA, Vijayakumar K (2019) An ACO-ANN based feature selection algorithm for big data. Clust Comput 22:3953–3960. https://doi.org/10.1007/s10586-018-2550-z Hancer E, Xue B, Zhang M, Karaboga D, Akay B (2018) Pareto front feature selection based on artificial bee colony optimization. Inf Sci 422:462–479. https://doi.org/10.1016/j.ins.2017.09.028 Sayed S, Nassef M, Badr A, Farag I (2019) A nested genetic algorithm for feature selection in high-dimensional cancer microarray datasets. Expert Syst Appl 121:233–243. https://doi.org/10.1016/j.eswa.2018.12.022 Feng Y, Chen H, Li T, Luo C (2020) A novel community detection method based on whale optimization algorithm with evolutionary population. Appl Intell 50:2503–2522. https://doi.org/10.1007/s10489-020-01659-7 Mafarja M, Aljarah I, Heidari AA, Hammouri AI, Faris H, Al-Zoubi AM, Mirjalili S (2018) Evolutionary population dynamics and grasshopper optimization approaches for feature selection problems. Knowl-Based Syst 145:25–45. https://doi.org/10.1016/j.knosys.2017.12.037 Rao H, Shi X, Rodrigue AK, Feng J, Xia Y, Elhoseny M, Yuan X, Gu L (2019) Feature selection based on artificial bee colony and gradient boosting decision tree. Appl Soft Comput 74:634–642. https://doi.org/10.1016/j.asoc.2018.10.036 Dong H, Li T, Ding R, Sun J (2018) A novel hybrid genetic algorithm with granular information for feature selection and optimization. Appl Soft Comput 65:33–46. https://doi.org/10.1016/j.asoc.2017.12.048 Maleki N, Zeinali Y, Niaki STA (2021) A K-NN method for lung cancer prognosis with the use of a genetic algorithm for feature selection. Expert Syst Appl 164:113981. https://doi.org/10.1016/j.eswa.2020.113981 Aličković E, Subasi A (2017) Breast cancer diagnosis using GA feature selection and rotation forest. Neural Comput Appl 28(4):753–763. https://doi.org/10.1007/s00521-015-2103-9 Li S, Wu H, Wan D, Zhu J (2011) An effective feature selection method for hyperspectral image classification based on genetic algorithm and support vector machine. Knowl-Based Syst 24(1):40–48. https://doi.org/10.1016/j.knosys.2010.07.003 Al-Shalabi M, Anbar M, Wan TC, Alqattan Z (2019) Energy efficient multi-hop path in wireless sensor networks using an enhanced genetic algorithm. Inf Sci 500:259–273. https://doi.org/10.1016/j.ins.2019.05.094 Poppink B, Frasincar F, Robal T (2023) An experimental study on re-ranking web shop search results using semantic segmentation of user profiles. Electron Commer Res Appl 62:101310. https://doi.org/10.1016/j.elerap.2023.101310 Bui-Thi D, Meysman P, Laukens K (2020) Clustering association rules to build beliefs and discover unexpected patterns. Appl Intell 50(6):1943–1954. https://doi.org/10.1007/s10489-020-01651-1 Jansen BJ, Salminen JO, Jung SG (2020) Data-driven personas for enhanced user understanding: combining empathy with rationality for better insights to analytics. Data Inf Manag 4(1):1–17. https://doi.org/10.2478/dim-2020-0005 Hu H, Liu J, Zhang X, Fang M (2023) An effective and adaptable K-means algorithm for big data cluster analysis. Pattern Recogn 139:109404. https://doi.org/10.1016/j.patcog.2023.109404 Berahmand K, Li Y, Xu Y (2023) DAC-HPP: deep attributed clustering with high-order proximity preserve. Neural Comput Appl 35:24493–24511. https://doi.org/10.1007/s00521-023-09052-4 Berahmand K, Bouyer A, Vasighi M (2018) Community detection in complex networks by detecting and expanding core nodes through extended local similarity of nodes. IEEE Trans Comput Soc Syst 5(4):1021–1033. https://doi.org/10.1109/tcss.2018.2879494 Saini N, Saha S, Harsh A, Bhattacharyya P (2019) Sophisticated SOM based genetic operators in multi-objective clustering framework. Appl Intell 49:1803–1822. https://doi.org/10.1007/s10489-018-1350-8 Rus MAM, Pramudita R, Surjandari I (2018) Segmentation of natural gas customers in industrial sector using self-organizing map (SOM) method. Mater Sci Eng 316:012046. https://doi.org/10.1088/1757-899x/316/1/012046 Xu G, Zhang L, Ma C, Liu Y (2020) A mixed attributes oriented dynamic SOM fuzzy cluster algorithm for mobile user classification. Inf Sci 515:280–293. https://doi.org/10.1016/j.ins.2019.12.019 Pramanik R, Pramanik P, Sarkar R (2023) Breast cancer detection in thermograms using a hybrid of GA and GWO based deep feature selection method. Expert Syst Appl 219:119643. https://doi.org/10.1016/j.eswa.2023.119643 Srinivasa KG, Venugopal KR, Patnaik LM (2007) A self-adaptive migration model genetic algorithm for data mining applications. Inf Sci 177(20):4295–4313. https://doi.org/10.1016/j.ins.2007.05.008 Ghosh S, Ghosh A, Pal SK (2003) Incorporating ancestors’ influence in genetic algorithms. Appl Intell 18:7–25. https://doi.org/10.1023/A:1020955300403 Zhou T, Lu H, Wang W, Yong X (2019) GA-SVM based feature selection and parameter optimization in hospitalization expense modeling. Appl Soft Comput 75:323–332. https://doi.org/10.1016/j.asoc.2018.11.001 Li Y, Qi J, Chu X, Mu W (2023) Customer segmentation using K-means clustering and the hybrid particle swarm optimization algorithm. Comput J 66(4):941–962. https://doi.org/10.1093/comjnl/bxab206 Bai R, Shi Y, Yue M, Du X (2023) Hybrid model based on K-means++ algorithm, optimal similar day approach, and long short-term memory neural network for short-term photovoltaic power prediction. Global Energy Interconnection 6(2):184–196. https://doi.org/10.1016/j.gloei.2023.04.006 Bigdeli A, Maghsoudi A, Ghezelbash R (2022) Application of self-organizing map (SOM) and K-means clustering algorithms for portraying geochemical anomaly patterns in Moalleman district, NE Iran. J Geochem Explor 233:106923. https://doi.org/10.1016/j.gexplo.2021.106923 Kamimura R (2019) SOM-based information maximization to improve and interpret multi-layered neural networks: from information reduction to information augmentation approach to create new information. Expert Syst Appl 125:397–411. https://doi.org/10.1016/j.eswa.2019.01.056 Li Z, Han Z, Xin J, Luo X, Su S, Weng M (2019) Transit oriented development among metro station areas in Shanghai, China: variations, typology, optimization and implications for land use planning. Land Use Policy 82:269–282. https://doi.org/10.1016/j.landusepol.2018.12.003 Brentan B, Meirelles G, Luvizotto E Jr, Izquierdo J (2018) Hybrid SOM+K-means clustering to improve planning, operation and management in water distribution systems. Environ Model Softw 106:77–88. https://doi.org/10.1016/j.envsoft.2018.02.013 Qi J, Li Y, Jin H, Feng J, Tian D, Mu W (2023) A novel stratification clustering algorithm based on a new local density estimation method and an improved local inter-cluster distance measure. Int J Mach Learn Cybern 14(12):4251–4283. https://doi.org/10.1007/s13042-023-01893-8 Li Y, Qi J, Jin H, Tian D, Mu W, Feng J (2023) An improved genetic-XGBoost classifier for customer consumption behavior prediction. The Comput J bxad041. https://doi.org/10.1093/comjnl/bxad041 Delgado S, Higuera C, Calle-Espinosa J, Morán F, Montero F (2017) A SOM prototype-based cluster analysis methodology. Expert Syst Appl 88:14–28. https://doi.org/10.1016/j.eswa.2017.06.022 Li Y, Chu X, Tian D, Feng J, Mu W (2021) Customer segmentation using K-means clustering and the adaptive particle swarm optimization algorithm. Appl Soft Comput 113:107924. https://doi.org/10.1016/j.asoc.2021.107924 Fei R, Wan Y, Hu B, Li A, Li Q (2023) A novel network core structure extraction algorithm utilized variational autoencoder for community detection. Expert Syst Appl 222:119775. https://doi.org/10.1016/j.eswa.2023.119775