Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Ước lượng nhanh ma trận đồng biến trung vị với ứng dụng vào phân tích thành phần chính robust trực tuyến
Tóm tắt
Ma trận đồng biến trung vị là một chỉ số đa biến vững chắc về độ phân tán có thể được mở rộng đến không gian vô hạn chiều. Chúng tôi định nghĩa các ước lượng, dựa trên các thuật toán đệ quy, có thể được cập nhật đơn giản tại mỗi quan sát mới và có khả năng xử lý nhanh chóng các mẫu lớn của dữ liệu có chiều cao mà không cần phải lưu trữ tất cả dữ liệu trong bộ nhớ. Các tính chất hội tụ tiệm cận của các thuật toán đệ quy được nghiên cứu dưới các điều kiện yếu trong các không gian Hilbert phân tách tổng quát. Việc tính toán các thành phần chính cũng có thể được thực hiện trực tuyến và cách tiếp cận này có thể hữu ích cho việc phát hiện ngoại lệ trực tuyến. Một nghiên cứu mô phỏng rõ ràng cho thấy chỉ số vững chắc này là một lựa chọn cạnh tranh đối với định mức hiệp phương sai tối thiểu khi kích thước của dữ liệu là nhỏ và phân tích thành phần chính vững chắc dựa trên theo đuổi chiếu và chiếu hình cầu cho dữ liệu có chiều cao. Một minh họa trên một mẫu lớn và dữ liệu có chiều cao gồm số liệu khán giả TV cá nhân được đo trong từng phút trong khoảng thời gian 24 giờ xác nhận mối quan tâm của việc xem xét phân tích thành phần chính vững chắc dựa trên ma trận đồng biến trung vị. Tất cả các thuật toán được nghiên cứu đều có sẵn trong gói R Gmedian trên CRAN.
Từ khóa
#ma trận đồng biến trung vị #phân tích thành phần chính vững chắc #thuật toán đệ quy #dữ liệu có chiều cao #phát hiện ngoại lệ trực tuyếnTài liệu tham khảo
Bali J-L, Boente G, Tyler D-E, Wang J-L (2011) Robust functional principal components: a projection-pursuit approach. Ann Stat 39:2852–2882
Bosq D (2000) Linear processes in function spaces, vol 149. Lecture notes in statistics, theory and applications, Springer, New York,
Cardot H, Cénac P, Chaouch M (2010) Stochastic approximation to the multivariate and the functional median. In: Lechevallier Y, Saporta G (eds) Compstat 2010. Springer, New York, pp 421–428
Cardot, H, Cénac P, Godichon-Baggioni A (2016) Online estimation of the geometric median in Hilbert spaces: non asymptotic confidence balls. Ann Stat arXiv:1501.06930
Cardot H, Cénac P, Monnez J-M (2012) A fast and recursive algorithm for clustering large datasets with k-medians. Comput Stat Data Anal 56:1434–1449
Cardot H, Cénac P, Zitt P-A (2013) Efficient and fast estimation of the geometric median in Hilbert spaces with an averaged stochastic gradient algorithm. Bernoulli 19:18–43
Cardot H, Degras D (2015) Online principal components analysis: which algorithm to choose? Tech Rep arXiv:1511.03688
Chaudhuri P (1992) Multivariate location estimation using extension of \(R\)-estimates through \(U\)-statistics type approach. Ann Stat 20(2):897–916
Croux C, Filzmoser P, Oliveira M (2007) Algorithms for projection-pursuit robust principal component analysis. Chemometr Intell Lab Syst 87:218–225
Croux C, Ruiz-Gazen A (2005) High breakdown estimators for principal components: the projection-pursuit approach revisited. J Multivar Anal 95:206–226
Devlin S, Gnanadesikan R, Kettenring J (1981) Robust estimation of dispersion matrices and principal components. J Am Stat Assoc 76:354–362
Fritz H, Filzmoser P, Croux C (2012) A comparison of algorithms for the multivariate \(L_1\)-median. Comput Stat 27:393–410
Gervini D (2008) Robust functional estimation using the median and spherical principal components. Biometrika 95(3):587–600
Godichon-Baggioni A (2016) Estimating the geometric median in Hilbert spaces with stochastic gradient algorithms; \(L^{p}\) and almost sure rates of convergence. J Multivar Anal 146:209–222
Gu M, Eisenstat S (1994) A stable and efficient algorithm for the rank-one modification of the symmetric eigenproblem. SIAM J Matrix Anal Appl 15:1266–1276
Huber P, Ronchetti E (2009) Robust statistics. Wiley, Amsterdam
Hubert M, Rousseeuw P, Van Aelst S (2008) High-breakdown robust multivariate methods. Stat Sci 13:92–119
Hyndman R, Ullah S (2007) Robust forecasting of mortality and fertility rates: a functional data approach. Comput Stat Data Anal 51:4942–4956
Jolliffe I (2002) Principal components analysis, 2nd edn. Springer, New York
Kemperman JHB (1987) The median of a finite measure on a Banach space. In: Statistical data analysis based on the \(L_1\)-norm and related methods (Neuchâtel, 1987). North-Holland, Amsterdam, pp 217–230
Kraus D, Panaretos VM (2012) Dispersion operators and resistant second-order functional data analysis. Biometrika 99:813–832
Locantore N, Marron J, Simpson D, Tripoli N, Zhang J, Cohen K (1999) Robust principal components for functional data. Test 8:1–73
Lopuhaä HP, Rousseeuw PJ (1991) Breakdown points of affine equivariant estimators of multivariate location and covariance matrices. Ann Stat 19(1):229–248
Maronna RA, Martin RD, Yohai VJ (2006) Robust statistics. Wiley series in probability and statistics, theory and methods. Wiley, Chichester
Mokkadem A, Pelletier M (2006) Convergence rate and averaging of nonlinear two-time-scale stochastic approximation algorithms. Ann Appl Probab 16(3):1671–1702
Polyak B, Juditsky A (1992) Acceleration of stochastic approximation. SIAM J Control Optim 30:838–855
R Development Core Team (2010) R: a language and environment for statistical computing. R Foundation for Statistical Computing, Vienna ISBN 3-900051-07-0
Ramsay JO, Silverman BW (2005) Functional data analysis, 2nd edn. Springer, New York
Rousseeuw P, van Driessen K (1999) A fast algorithm for the minimum covariance determinant estimator. Technometrics 41:212–223
Small CG (1990) A survey of multidimensional medians. Int Stat Rev/Revue Int Stat 58(3):263–277
Taskinen S, Koch I, Oja H (2012) Robustifying principal components analysis with spatial sign vectors. Stat Prob Lett 82:765–774
Vardi Y, Zhang C-H (2000) The multivariate \(L_1\)-median and associated data depth. Proc Natl Acad Sci USA 97(4):1423–1426
Weiszfeld E (1937) On the point for which the sum of the distances to n given points is minimum. Tohoku Math J 43:355–386
Weng J, Zhang Y, Hwang W-S (2003) Candid covariance-free incremental principal component analysis. IEEE Trans Pattern Anal Mach Intell 25:1034–1040
