Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Tính toán ước lượng ma trận hiệp phương sai từ dữ liệu trong hai lớp
Tóm tắt
Bài báo này đề cập đến vấn đề ước lượng một ma trận hiệp phương sai từ dữ liệu trong hai lớp: (1) dữ liệu tốt với ma trận hiệp phương sai cần quan tâm và (2) sự ô nhiễm đến từ một phân phối Gaussian với ma trận hiệp phương sai khác. Hình phạt ridge được giới thiệu nhằm giải quyết vấn đề thách thức trong không gian chiều cao khi ước lượng ma trận hiệp phương sai từ mô hình dữ liệu hai lớp. Một ước lượng ridge của ma trận hiệp phương sai có công thức đồng nhất và giữ tính xác định dương, bất kể kích thước dữ liệu lớn hay nhỏ hơn kích thước chiều dữ liệu. Hơn nữa, tham số ridge được điều chỉnh thông qua một quy trình kiểm tra chéo. Cuối cùng, ước lượng ridge được đề xuất được xác minh với hiệu suất tốt hơn so với ước lượng hiện có từ dữ liệu trong hai lớp và ước lượng ridge truyền thống chỉ từ dữ liệu tốt.
Từ khóa
#ma trận hiệp phương sai #ước lượng ridge #kiểm tra chéo #phân phối Gaussian #dữ liệu hai lớpTài liệu tham khảo
M. Ahsanullah, V. B. Nevzorov: Generalized spacings of order statistics from extended sample. J. Stat. Plann. Inference 85 (2000), 75–83.
O. Besson: Maximum likelihood covariance matrix estimation from two possibly mismatched data sets. Signal Process. 167 (2020), Article ID 107285, 9 pages.
R. Bhatia: Positive Definite Matrices. Princeton Series in Applied Mathematics. Princeton University Press, Princeton, 2007.
J. Bien, R. J. Tibshirani: Sparse estimation of a covariance matrix. Biometrika 98 (2011), 807–820.
O. Bodnar, T. Bodnar, N. Parolya: Recent advances in shrinkage-based high-dimensional inference. J. Multivariate Anal. 188 (2022), Article ID 104826, 13 pages.
S. Cho, S. Katayama, J. Lim, Y.-G. Choi: Positive-definite modification of a covariance matrix by minimizing the matrix ℓ∞ norm with applications to portfolio optimization. AStA, Adv. Stat. Anal. 105 (2021), 601–627.
P. Danaher, P. Wang, D. M. Witten: The joint graphical lasso for inverse covariance estimation across multiple classes. J. R. Stat. Soc., Ser. B, Stat. Methodol. 76 (2014), 373–397.
T. J. Fisher, X. Sun: Improved Stein-type shrinkage estimators for the high-dimensional multivariate normal covariance matrix. Comput. Stat. Data Anal. 55 (2011), 1909–1918.
F. Götze, A. Tikhomirov: Rate of convergence in probability to the Marchenko-Pastur law. Bernoulli 10 (2004), 503–548.
A. Hannart, P. Naveau: Estimating high dimensional covariance matrices: A new look at the Gaussian conjugate framework. J. Multivariate Anal. 131 (2014), 149–162.
N. Hoshino, A. Takemura: On reduction of finite-sample variance by extended Latin hypercube sampling. Bernoulli 6 (2000), 1035–1050.
C. Huang, D. Farewell, J. Pan: A calibration method for non-positive definite covariance matrix in multivariate data analysis. J. Multivariate Anal. 157 (2017), 45–52.
J. Z. Huang, N. Liu, M. Pourahmadi, L. Liu: Covariance matrix selection and estimation via penalised normal likelihood. Biometrika 93 (2006), 85–98.
S. Jia, C. Zhang, H. Lu: Covariance function versus covariance matrix estimation in efficient semi-parametric regression for longitudinal data analysis. J. Multivariate Anal. 187 (2022), Article ID 104900, 14 pages.
J. Kalina, J. D. Tebbens: Algorithms for regularized linear discriminant analysis. Proceedings of the International Conference on Bioinformatics Models, Methods and Algorithms. Scitepress, Setúbal, 2015, pp. 128–133.
N. Kochan, G. Y. Tütüncü, G. Giner: A new local covariance matrix estimation for the classification of gene expression profiles in high dimensional RNA-Seq data. Expert Systems Appl. 167 (2021), Article ID 114200, 5 pages.
C. M. Le, K. Levin, P. J. Bickel, E. Levina: Comment: Ridge regression and regularization of large matrices. Technometrics 62 (2020), 443–446.
O. Ledoit, M. Wolf: A well-conditioned estimator for large-dimensional covariance matrices. J. Multivariate Anal. 88 (2004), 365–411.
C.-N. Li, P.-W. Ren, Y.-R. Guo, Y.-F. Ye, Y.-H. Shao: Regularized linear discriminant analysis based on generalized capped ℓ2,q-norm. To appear in Ann. Oper. Res.
L.-H. Lim, R. Sepulchre, K. Ye: Geometric distance between positive definite matrices of different dimensions. IEEE Trans. Inf. Theory 65 (2019), 5401–5405.
J. A. D. Massignan, J. B. A. London, M. Bessani, C. D. Maciel, R. Z. Fannucchi, V. Miranda: Bayesian inference approach for information fusion in distribution system state estimation. IEEE Trans. Smart Grid 13 (2022), 526–540.
X. Mestre: On the asymptotic behavior of the sample estimates of eigenvalues and eigenvectors of covariance matrices. IEEE Trans. Signal Process. 56 (2008), 5353–5368.
E. Raninen, E. Ollila: Coupled regularized sample covariance matrix estimator for multiple classes. IEEE Trans. Signal Process. 69 (2021), 5681–5692.
E. Raninen, D. E. Tyler, E. Ollila: Linear pooling of sample covariance matrices. IEEE Trans. Signal Process. 70 (2022), 659–672.
C. Scheidegger, J. Hörrmann, P. Bühlmann: The weighted generalised covariance measure. J. Mach. Learn. Res. 23 (2022), Article ID 273, 68 pages.
H. Tsukuma, T. Kubokawa: Unified improvements in estimation of a normal covariance matrix in high and low dimensions. J. Multivariate Anal. 143 (2016), 233–248.
W. N. van Wieringen, C. F. W. Peeters: Ridge estimation of inverse covariance matrices from high-dimensional data. Comput. Stat. Data Anal. 103 (2016), 284–303.
R. Vershynin: How close is the sample covariance matrix to the actual covariance matrix? J. Theor. Probab. 25 (2012), 655–686.
H. Wang, B. Peng, D. Li, C. Leng: Nonparametric estimation of large covariance matrices with conditional sparsity. J. Econom. 223 (2021), 53–72.
D. I. Warton: Penalized normal likelihood and ridge regularization of correlation and covariance matrices. J. Am. Stat. Assoc. 103 (2008), 340–349.
D. M. Witten, R. Tibshirani: Covariance-regularized regression and classification for high dimensional problems. J. R. Stat. Soc., Ser. B, Stat. Methodol. 71 (2009), 615–636.
B. Xi, J. Li, Y. Li, R. Song, D. Hong, J. Chanussot: Few-shot learning with class-co-variance metric for hyperspectral image classification. IEEE Trans. Image Process. 31 (2022), 5079–5092.
L. Xue, S. Ma, H. Zou: Positive-definite ℓ1-penalized estimation of large covariance matrices. J. Am. Stat. Assoc. 107 (2012), 1480–1491.
Y. Yang, J. Zhou, J. Pan: Estimation and optimal structure selection of high-dimensional Toeplitz covariance matrix. J. Multivariate Anal. 184 (2021), Article ID 104739, 17 pages.
Y. Yin: Spectral statistics of high dimensional sample covariance matrix with unbounded population spectral norm. Bernoulli 28 (2022), 1729–1756.
R. Yuasa, T. Kubokawa: Ridge-type linear shrinkage estimation of the mean matrix of a high-dimensional normal distribution. J. Multivariate Anal. 178 (2020), Article ID 104608, 18 pages.
H. Zhang, J. Jia: Elastic-net regularized high-dimensional negative binomial regression: Consistency and weak signals detection. Stat. Sin. 32 (2022), 181–207.
Y. Zhang, Y. Zhou, X. Liu: Applications on linear spectral statistics of high-dimensional sample covariance matrix with divergent spectrum. Comput. Stat. Data Anal. 178 (2023), Article ID 107617, 19 pages.