Phương pháp lấp đầy dữ liệu thiếu dựa trên PCA điều chỉnh theo từng khúc

Alfonso Iodice D’Enza1, Angelos Markos2, Francesco Palumbo1
1Dipartimento di Scienze Politiche, Univeristà degli studi di Napoli Federico II, Naples, Italy
2Department of Primary Education, Democritus University of Thrace, Alexandroupolis, Greece

Tóm tắt

Tóm tắtCác kỹ thuật đa biến tiêu chuẩn như Phân tích Thành phần Chính (PCA) dựa trên phân rã trị riêng của một ma trận và do đó yêu cầu các tập dữ liệu đầy đủ. Các đánh giá so sánh gần đây về các thuật toán PCA cho dữ liệu thiếu cho thấy thuật toán PCA lặp lại điều chỉnh (RPCA) có hiệu quả. Bài báo này trình bày hai cách triển khai theo khúc của RPCA phù hợp cho việc lấp đầy các tập dữ liệu "cao", tức là, các tập dữ liệu với nhiều quan sát. Một "khúc" là một tập con của toàn bộ tập các quan sát có sẵn. Cụ thể, một cách triển khai phù hợp cho tính toán phân tán vì nó lấp đầy mỗi khúc một cách độc lập. Triển khai còn lại, ngược lại, phù hợp cho tính toán gia tăng, trong đó việc lấp đầy mỗi khúc mới dựa vào tất cả các khúc đã phân tích đến thời điểm đó. Các quy trình đề xuất được so sánh với RPCA theo lô, xem xét các tập dữ liệu và cơ chế dữ liệu thiếu khác nhau. Kết quả thực nghiệm cho thấy rằng phương pháp phân tán có hiệu suất tương tự như RPCA theo lô đối với dữ liệu có các phần tử bị thiếu hoàn toàn ngẫu nhiên. Phương pháp gia tăng cho thấy hiệu suất đáng kể khi dữ liệu không bị thiếu hoàn toàn ngẫu nhiên và các khúc đầu tiên đã phân tích chứa đủ thông tin về cấu trúc dữ liệu.

Từ khóa


Tài liệu tham khảo

Balzano L, Chi Y, Lu YM (2018) Streaming pca and subspace tracking: The missing data case. Proc IEEE 106(8):1293–1310

Benzécri JP (1973) L’analyse des données. L’analyse des correspondances, Dunod, Tome II

Borgognone MG, Bussi J, Hough G (2001) Principal component analysis in sensory analysis: covariance or correlation matrix? Food Qual Preference 12(5–7):323–326

Bro R, Kjeldahl K, Smilde AK, Kiers HAL (2008) Cross-validation of component model: a critical look at current methods. Analy Bioanal Chem 390:1241–1251

Cardot H, Degras D (2018) Online principal component analysis in high dimension: which algorithm to choose? Int Stat Rev 86(1):29–50

Dempster AP, Laird NM, Rubin DB (1977) Maximum likelihood from incomplete data via the EM algorithm. J R Stat Soci Ser B 39(1):1–38

Dray S, Josse J (2015) Principal component analysis with missing values: a comparative survey of methods. Plant Ecol 216(5):657–667

Eckart C, Young G (1973) The approximation of one matrix by another of lower rank. Psychometrika 1:211–218

Escoufier Y (1973) Le traitement des variables vectorielles. Biometrics pp 751–760

Folch-Fortuny A, Arteaga F, Ferrer A (2015) PCA model building with missing data: new proposals and a comparative study. Chemom Intell Lab Syst 146:77–88

Geraci M, Farcomeni A (2016) Probabilistic principal component analysis to identify profiles of physical activity behaviours in the presence of non-ignorable missing data. J R Stat Soc Ser C (Appl Stat) 65(1):51–75

Geraci M, Farcomeni A (2018) Principal component analysis in the presence of missing data. Advances in Principal Component Analysis. Springer, New York, pp 47–70

Golub GH, Van Loan CF (2012) Matrix computations, vol 3. JHU Press, Maryland

Gower JC (1971) Statistical methods of comparing different multivariate analyses of the same data. Mathematics in the archaeological and historical science. pp 138–149

Greenacre M (2017) Correspondence analysis in practice. Chapman and Hall/CRC, NewYork

Greenacre MJ (2010) Biplots in practice. Fundacion BBVA, Spain

Hall P, Marshall D, Martin R (2002) Adding and subtracting eigenspaces with eigenvalue decomposition and singular value decomposition. Image Vis Comput 20(13–14):1009–1016

Hastie T, Tibshirani R, Friedman J (2009) The elements of statistical learning: data mining, inference, and prediction, 2nd edn. Springer, NewYork

Hegde A, Principe JC, Erdogmus D, Ozertem U, Rao YN, Peddaneni H (2006) Perturbation-based eigenvector updates for on-line principal components analysis and canonical correlation analysis. J VLSI Signal Process Syst Signal Image Video Technol 45(1–2):85–95

Ilin A, Raiko T (2010) Practical approaches to principal component analysis in the presence of missing values. J Mach Learn Res 11:1957–2000

Iodice D’Enza A, Markos A, Buttarazzi D (2018) The idm package: incremental decomposition methods in R. J Stat Softw Code Snippets 86(4):1–24

Jolliffe IT (2002) Principal Component Analysis, 2nd edn. Springer-Verlag, New York

Josse J, Husson F (2012) Handling missing values in exploratory multivariate data analysis methods. J Soc Fr Stat 153(2):79–99

Josse J, Husson F, Pagès J (2009) Gestion des données manquantes en analyse en composantes principales. J Soci Fr Stat 150(2):28–51

Josse J, Timmerman ME, Kiers HA (2013) Missing values in multi-level simultaneous component analysis. Chemom Intell Lab Syst 129:21–32

Josse J, Husson F et al (2016) missMDA: a package for handling missing values in multivariate data analysis. J Stat Softw 70(1):1–31

Kiers HA (1997) Weighted least squares fitting using ordinary least squares algorithms. Psychometrika 62(2):251–266

Levey A, Lindenbaum M (2000) Sequential karhunen-loeve basis extraction and its application to images. IEEE Trans Image Process 9(8):1371–1374

Little RJ, Rubin DB (2019) Statistical analysis with missing data. John Wiley & Sons, Hoboken

Loisel S, Takane Y (2019) Comparisons among several methods for handling missing data in principal component analysis (PCA). Adv Data Anal Classif 13(2):495–518

Markos A, Iodice D’Enza A (2018) A framework for the incremental update of the MCA solution. Ital J Appl Stat 29(2–3):217–231

Navarrete P, Ruiz-del-Solar J (2002) Analysis and comparison of eigenspace-based face recognition approaches. Int J Pattern Recognit Artif Intell 16(07):817–830

Pagès J (2004) Analyse factorielle de données mixtes. Revue de Stat Appl 52(4):93–111

Rieth CA, Amsel BD, Tran R, Cook MB (2017). Additional Tennessee Eastman process simulation data for anomaly detection evaluation. https://doi.org/10.7910/DVN/6C3JR1

Robert P, Escoufier Y (1976) A unifying tool for linear multivariate statistical methods: the RV-coefficient. Appl Stat 25(3):257–265

Ross DA, Lim J, Lin RS, Yang MH (2008) Incremental learning for robust visual tracking. Int J Comput Vis 77(1–3):125–141

Rubin DB (1976) Inference and missing data. Biometrika 63(3):581–592

Schafer JL (1997) Analysis of incomplete multivariate data. Chapman and Hall/CRC, New York

Severson KA, Molaro MC, Braatz RD (2017) Principal component analysis of process datasets with missing values. Processes 5(3):38

Sportisse A, Boyer C, Josse J (2020) Imputation and low-rank estimation with Missing Not At Random data. Stat Comput 30(6):1629–1643

Takane Y, Oshima-Takane Y (2003) Relationships between two methods for dealing with missing data in principal component analysis. Behaviormetrika 30(2):145–154

Van Ginkel JR, Kroonenberg PM, Kiers HAL (2014) Missing data in principal component analysis of questionnaire data: a comparison of methods. J Stat Comput Simul 84(11):2298–2315