Về ảnh hưởng của sự nhiễu loạn trong các mô hình hồi quy tuyến tính: một phương pháp dựa trên lý thuyết về các dạng bậc hai

Martina Narcisi1,2, Fedele Greco1, Carlo Trivisano1
1Department of Statistical Sciences “Paolo Fortunati”, University of Bologna, Bologna, Italy
2Department of Biological, Geological and Environmental Sciences, University of Bologna, Bologna, Italy

Tóm tắt

Trong hai thập kỷ qua, có nhiều nỗ lực nghiên cứu đáng kể đã được dành cho việc giải quyết vấn đề nhiễu loạn không gian trong các mô hình hồi quy tuyến tính. Nhiễu loạn xảy ra khi mối quan hệ giữa biến đồng covariate và biến phản hồi bị ảnh hưởng bởi một biến nhiễu không đo lường có liên quan đến cả hai. Điều này dẫn đến các ước lượng sai lệch cho các hệ số hồi quy, giảm hiệu suất và những diễn giải gây hiểu lầm. Bài viết này nhằm mục đích hiểu cách mà sự nhiễu loạn liên quan đến các thông số của quá trình sinh dữ liệu. Các thuộc tính lấy mẫu của ước lượng hệ số hồi quy được suy ra dưới dạng tỷ lệ của các dạng bậc hai phụ thuộc vào các biến ngẫu nhiên Gaussian: điều này cho phép chúng tôi thu được các biểu thức chính xác cho độ lệch và phương sai biên của ước lượng, điều mà các nghiên cứu trước đây chưa đạt được. Hơn nữa, chúng tôi cung cấp một thước đo xấp xỉ về độ lệch biên, giúp làm sáng tỏ các yếu tố chính quyết định độ lệch. Các ứng dụng trong khuôn khổ mô hình hóa dữ liệu địa thống kê và dữ liệu diện tích được trình bày. Sự chú ý đặc biệt được dành cho sự khác biệt giữa độ mượt mà và biến động của các vector ngẫu nhiên tham gia vào quá trình sinh dữ liệu. Các kết quả chỉ ra rằng hiệp phương sai biên giữa biến đồng và biến nhiễu, cùng với phương sai biên của biến đồng, đóng vai trò quan trọng nhất trong việc xác định độ lớn của sự nhiễu loạn, được đo bằng độ lệch.

Từ khóa

#hồi quy tuyến tính #nhiễu loạn không gian #độ lệch hệ số #phương sai biên #mô hình hóa dữ liệu địa thống kê

Tài liệu tham khảo

Bao Y, Kan R (2013) On the moments of ratios of quadratic forms in normal random variables. J Multivar Anal 117:229–245 Bernardinelli L, Clayton D, Pascutto C, Montomoli C, Ghislandi M, Songini M (1995) Bayesian analysis of space-time variation in disease risk. Stat Med 14(21–22):2433–2443 Besag J (1974) Spatial interaction and the statistical analysis of lattice systems. J Roy Stat Soc 36(2):192–236 Carlson B (1963) Lauricella’s hypergeometric function fd. J Math Anal Appl 7(3):452–470 Clayton DG, Bernardinelli L, Montomoli C (1993) Spatial correlation in ecological analysis. Int J Epidemiol 22(6):1193–1202 Cressie N (1993) Statistics for spatial data, Revised. Wiley Interscience, Hoboken, New Jersey Cressie N, Davis AS, Folks JL, Policello GE (1981) The moment-generating function and negative integer moments. Am Stat 35(3):148–150 Dominici F, McDermott A, Hastie TJ (2004) Improved semiparametric time series models of air pollution and mortality. J Am Stat Assoc 99(468):938–948 Dupont E, Wood SN, Augustin N (2022) Spatial+: a novel approach to spatial confounding. Biometrics 78(4):1279–1290. https://doi.org/10.1111/biom.13656 Gardini A, Greco F, Trivisano C (2022) The mellin transform to manage quadratic forms in normal random variables. J Comput Graph Stat 31(4):1416–1425. https://doi.org/10.1080/10618600.2022.2034639 Guan Y, Page GL, Reich BJ, Ventrucci M, Yang S (2023) Spectral adjustment for spatial confounding. Biometrika 110(3):699–719. https://doi.org/10.1093/biomet/asac069 Hanks EM, Schliep EM, Hooten MB, Hoeting JA (2015) Restricted spatial regression in practice: geostatistical models, confounding, and robustness under model misspecification. Environmetrics 26(4):243–254 Hefley TJ, Hooten MB, Hanks EM, Russell RE, Walsh DP (2017) The Bayesian group lasso for confounded spatial data. J Agric Biol Environ Stat 22(1):42–59 Hodges JS, Reich BJ (2010) Adding spatially-correlated errors can mess up the fixed effect you love. Am Stat 64(4):325–334 Hughes J, Haran M (2013) Dimension reduction and alleviation of confounding for spatial generalized linear mixed models. J Royal Stat Soc Ser B 75(1):139–159 Hui FKC, Bondell HD (2022) Spatial confounding in generalized estimating equations. Am Stat 76(3):238–247 Lauricella G (1893) Sulle funzioni ipergeometriche a piu variabili. Rendiconti del Circolo Matematico di Palermo 7:111–158 Magnus JR (1986) The exact moments of a ratio of quadratic forms in normal variables. Annal dÉconomie et de Statistique 4:95–109 Marques I, Kneib T, Klein N (2022) Mitigating spatial confounding by explicitly correlating Gaussian random fields. Environmetrics 33(5):e2727. https://doi.org/10.1002/env.2727 Matérn B (1986) Spatial variation, 2nd edn. Springer, Berlin Narcisi M (2023) On the effect of confounding in linear regression model: an approach based on the theory of quadratic forms. (Dissertation thesis, University of Bologna) Nobre WS, Schmidt AM, Pereira JBM (2021) On the effects of spatial confounding in hierarchical models. Int Stat Rev 89(2):302–322 Paciorek CJ (2010) The importance of scale for spatial-confounding bias and precision of spatial regression estimators. Stat Sci 25(1):107–125 Page GL, Liu Y, He Z, Sun D (2017) Estimation and prediction in the presence of spatial confounding for spatial linear models. Scand J Stat 44(3):780–797 Paolella M (2018) Linear models and time-series analysis: regression, anova, arma and garch. Wiley, Hoboken, New Jersey Papadogeorgou G, Choirat C, Zigler CM (2018) Adjusting for unmeasured spatial confounding with distance adjusted propensity score matching. Biostatistics 20(2):256–272 Provost S, Mathai A (1992) Quadratic forms in random variables: theory and applications. Marcel Dekker, New York Reich BJ, Hodges JS, Zadnik V (2006) Effects of residual smoothing on the posterior of the fixed effects in disease-mapping models. Biometrics 62(4):1197–1206 Reich BJ, Yang S, Guan Y, Giffin AB, Miller MJ, Rappold A (2021) A review of spatial causal inference methods for environmental and epidemiological applications. Int Stat Rev 89(3):605–634 Roberts LA (1995) On the existence of moments of ratios of quadratic forms. Economet Theor 11(4):750–774 Rue H, Held L (2005) Gaussian markov random fields: theory and applications. CRC Press, New York Sawa T (1978) The exact moments of the least squares estimator for the autoregressive model. J Econ 8(2):159–172 Thaden H, Kneib T (2018) Structural equation models for dealing with spatial confounding. Am Stat 72(3):239–252 Xiao-Li M (2005) From unit root to Stein’s estimator to Fisher’s K statistics: if you have a moment, I can tell you more. Stat Sci 20(2):141–162 Yang J (2021) On the extreme eigenvalues of the precision matrix of the nonstationary autoregressive process and its applications to outlier estimation of panel time series. arXiv preprint arXiv:2109.02204