Hồi quy gờ thích ứng bị cắt đứt trong không gian cao chiều

Computational Statistics - Trang 1-26 - 2024
Jeongjin Lee1, Taehwa Choi2, Sangbum Choi3
1Department of Statistics, Ohio State University, Columbus, USA
2Department of Biostatistics and Bioinformatics, Duke University, Durham, USA
3Department of Statistics, Korea University, Seoul, South Korea

Tóm tắt

Hồi quy gờ thích ứng bị cắt đứt (BAR) là một phương pháp hồi quy có điều kiện phạt, thực hiện việc chọn biến thông qua một cách tiếp cận thay thế có khả năng tính toán mở rộng cho quy tắc điều chỉnh $$L_0$$. Hồi quy BAR có nhiều đặc điểm hấp dẫn; nó hội tụ về việc chọn lựa với các hình phạt $$L_0$$ là kết quả của việc điều chỉnh lại các hình phạt $$L_2$$, và thỏa mãn tính chất oracle với hiệu ứng nhóm cho các biến liên quan mạnh. Trong bài báo này, chúng tôi nghiên cứu quy trình BAR để chọn biến trong một mô hình thời gian thất bại gia tốc nửa tham số với dữ liệu bị cắt cao chiều phức tạp. Kết hợp với các phản hồi kiểu Buckley-James, các quy trình chọn biến dựa trên BAR có thể được thực hiện khi thời gian sự kiện bị cắt theo những cách phức tạp, chẳng hạn như bị cắt bên phải, bên trái hoặc bị cắt đôi. Phương pháp của chúng tôi sử dụng một thuật toán giảm dần chu kỳ hai giai đoạn nhằm tối thiểu hóa hàm mục tiêu bằng cách ước lượng lặp đi lặp lại phản hồi sống giả và các hệ số hồi quy theo hướng của các tọa độ. Dưới một số điều kiện quy chuẩn yếu, chúng tôi thiết lập cả tính chất oracle và hiệu ứng nhóm của ước lượng BAR được đề xuất. Các nghiên cứu số học được tiến hành để khảo sát hiệu suất trong mẫu hữu hạn của thuật toán đề xuất và một ứng dụng cho dữ liệu thực tế được đưa ra như một ví dụ.

Từ khóa

#Hồi quy gờ #chọn biến #mô hình thời gian thất bại gia tốc #dữ liệu bị cắt #thuật toán giảm dần

Tài liệu tham khảo

Breiman L (1996) Heuristics of instability and stabilization in model selection. Ann Stat 24(6):2350–2383 Buckley J, James I (1979) Linear regression with censored data. Biometrika 66(3):429–436 Choi S, Cho H (2019) Accelerated failure time models for the analysis of competing risks. J Korean Stat Soc 48:315–326 Choi T, Choi S (2021) A fast algorithm for the accelerated failure time model with high-dimensional time-to-event data. J Stat Comput Simul 91(16):3385–3403 Choi S, Choi T, Cho H, Bandyopadhyay D (2022) Weighted least-squares regression with competing risks data. Stat Med 41(2):227–241 Choi T, Kim AK, Choi S (2021) Semiparametric least-squares regression with doubly-censored data. Comput Stat Data Anal 164:107306 Dai L, Chen K, Li G (2020) The broken adaptive ridge procedure and its applications. Statistica Sinica 30(2):1069–1094 Dai L, Chen K, Sun Z, Liu Z, Li G (2018) Broken adaptive ridge regression and its asymptotic properties. J Multivar Anal 168:334–351 Daubechies I, DeVore R, Fornasier M, Güntürk CS (2010) Iteratively reweighted least squares minimization for sparse recovery. Commun Pure Appl Math J Issued Courant Instit Math Sci 63(1):1–38 Fan J, Li R (2001) Variable selection via nonconcave penalized likelihood and its oracle properties. J Am Stat Assoc 96(456):1348–1360 Frommlet F, Nuel G (2016) An adaptive ridge procedure for \(l_0\) regularization. PloS one 11(2):e0148620 Gao F, Zeng D, Lin DY (2017) Semiparametric estimation of the accelerated failure time model with partly interval-censored data. Biometrics 73(4):1161–1168 Huang J (1999) Asymptotic properties of nonparametric estimation based on partly interval-censored data. Statistica Sinica 9(2):501–519 Jin Z, Lin D, Wei L, Ying Z (2003) Rank-based inference for the accelerated failure time model. Biometrika 90(2):341–353 Jin Z, Lin D, Ying Z (2006) On least-squares regression with censored data. Biometrika 93(1):147–161 Johnson BA (2009) On lasso for censored data. Electron J Stat 3:485–506 Johnson BA, Lin DY, Zeng D (2008) Penalized estimating functions and variable selection in semiparametric regression models. J Am Stat Assoc 103(482):672–680 Kawaguchi ES, Shen JI, Suchard MA, Li G (2021) Scalable algorithms for large competing risks data. J Comput Graph Stat 30(3):685–693 Kawaguchi ES, Suchard MA, Liu Z, Li G (2020) A surrogate \({L}_0\) sparse Cox’s regression with applications to sparse high-dimensional massive sample size time-to-event data. Stat Med 39(6):675–686 Leurgans S (1987) Linear models, random censoring and synthetic data. Biometrika 74(2):301–309 Li Y, Dicker L, Zhao S (2014) The Dantzig selector for censored linear regression models. Statistica Sinica 24(1):251–268 Liu Y, Chen X, Li G (2019) A new joint screening method for right-censored time-to-event data with ultra-high dimensional covariates. Stat Methods Med Res 29(6):1499–1513 Meir A, Keeler E (1969) A theorem on contraction mappings. J Math Anal Appl 28(2):326–329 Rippe RC, Meulman JJ, Eilers PH (2012) Visualization of genomic changes by segmented smoothing using an l 0 penalty. PloS one 7(6):e38230 Ritov Y (1990) Estimation in a linear regression model with censored data. Ann Stat 18(1):303–328 Shao J (1993) Linear model selection by cross-validation. J Am Stat Assoc 88(422):486–494 Son M, Choi T, Shin SJ, Jung Y, Choi S (2021) Regularized linear censored quantile regression. J Korean Stat Soc 51:1–19 Sun Z, Liu Y, Chen K, Li G (2022) Broken adaptive ridge regression for right-censored survival data. Ann Instit Stat Math 74(1):69–91 Sun Z, Yu C, Li G, Chen K, Liu Y (2020) CenBAR: Broken Adaptive Ridge AFT Model with Censored Data. https://cran.r-project.org/web/packages/CenBAR/index.html, r package version 0.1.1 Tibshirani R (1996) Regression shrinkage and selection via the lasso. J Royal Stat Soc Series B (Methodological) 58(1):267–288 Turnbull BW (1976) The empirical distribution function with arbitrarily grouped, censored and truncated data. J Royal Stat Soc Ser B 38(3):290–295 Wang S, Nan B, Zhu J, Beer DG (2008) Doubly penalized Buckley-James method for survival data with high-dimensional covariates. Biometrics 64(1):132–140 Xu J, Leng C, Ying Z (2010) Rank-based variable selection with censored data. Stat Comput 20(2):165–176 Zeng D, Lin D (2007) Efficient estimation for the accelerated failure time model. J Am Stat Assoc 69(4):507–564 Zhao H, Sun D, Li G, Sun J (2018) Variable selection for recurrent event data with broken adaptive ridge regression. Can J Stat 46(3):416–428 Zhao H, Wu Q, Li G, Sun J (2020) Simultaneous estimation and variable selection for interval-censored data with broken adaptive ridge regression. J Am Stat Assoc 115(529):204–216 Zou H (2006) The adaptive lasso and its oracle properties. J Am Stat Assoc 101(476):1418–1429