Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Điều chỉnh yếu tố gây nhiễu chiều thấp và ước lượng có hình phạt chiều cao cho phân tích sống còn
Tóm tắt
Phân tích thông tin ở quy mô cao hiện nay trở nên phổ biến trong nghiên cứu y sinh. Trong bài báo này, chúng tôi xem xét việc bố trí một nghiên cứu về nguyên nhân bệnh lý bao gồm phản ứng thời gian thất bại và các đo lường biểu hiện gen. Trong thực tiễn hiện nay, một phương pháp được áp dụng rộng rãi là lựa chọn các gen theo một sàng lọc biên giới sơ bộ và một hồi quy có hình phạt để xây dựng mô hình. Các yếu tố gây nhiễu, chẳng hạn như các yếu tố rủi ro lâm sàng và các tác nhân môi trường, thường tồn tại và cần được tính đến một cách thích hợp. Chúng tôi đề xuất các thủ tục sàng lọc và lựa chọn biến điều chỉnh theo yếu tố gây nhiễu dưới mô hình thời gian thất bại gia tốc. Trong khi trừng phạt các hệ số chiều cao để đạt được hình thức mô hình tiết kiệm, quy trình của chúng tôi còn điều chỉnh thích hợp các hiệu ứng yếu tố gây nhiễu chiều thấp để đạt được ước lượng chính xác hơn về các hệ số hồi quy. Chúng tôi thiết lập các tính chất tiệm cận của các phương pháp mà chúng tôi đề xuất và thực hiện các nghiên cứu mô phỏng để đánh giá hiệu suất mẫu hữu hạn. Các phương pháp của chúng tôi được minh họa bằng một phân tích dữ liệu biểu hiện gen thực tế, nơi việc điều chỉnh thích hợp các yếu tố gây nhiễu tạo ra những kết quả có ý nghĩa hơn.
Từ khóa
#Nghiên cứu nguyên nhân #Phân tích sống còn #Sàng lọc #Hồi quy có hình phạt #Điều chỉnh yếu tố gây nhiễu.Tài liệu tham khảo
Bradic J, Fan J, Jiang J (2011) Regularization for Cox’s proportional hazards model with NP-dimensionality. Ann Stat 39:3092–3120
Cai T, Huang J, Tian L (2009) Regularized estimation for the accelerated failure time model. Biometrics 65:394–404
Chen HY, Yu SL et al (2007) A five-gene signature and clinical outcome in non-small-cell lung cancer. N Engl J Med 356:11–20
Cheng MY, Zhang W, Chen LH (2009) Statistical estimation in generalized multiparameter likelihood models. J Am Stat Assoc 104:1179–1191
Cheng MY, Honda T, Li J, Peng H (2014) Nonparametric independence screening and structure identification for ultra-high dimensional longitudinal/clustered data. Ann Stat 42:1819–1849
Cheng MY, Honda T, Zhang JT (2015) Forward variable selection for sparse ultra-high dimensional varying coefficient models. J Am Stat Assoc. arXiv:1410.6556
Fan J, Feng Y, Song R (2001) Nonparametric independence screening in sparse ultra-high dimensional additive models. J Am Stat Assoc 106:544–555
Fan J, Li R (2001) Variable selection via noncancave penalized likelihood and its oracle properties. J Am Stat Assoc 96:1348–1360
Fan J, Li R (2002) Variable selection for coxs proportional hazards model and frailty model. Ann Stat 30:74–99
Fan J, Lv J (2008) Sure independence screening for ultrahigh dimensional feature space. J R Stat Soc Ser B 70:849–911
Fan J, Samworth R, Wu Y (2009) Ultrahigh dimensional feature selection: beyond the linear model. J Mach Learn Res 10:2013–2038
Gordis L (2008) Epidemiology, 4th edn. Saunders, Philadelphia
Hu J, Chai H (2013) Adjusted regularized estimation in the accelerated failure time model with high dimensional covariates. J Multivar Anal 122:96–114
Huang J, Ma S (2010) Variable selection in the accelerated failure time model via the bridge method. Lifetime Data Analysis 16:176–195
Huang J, Ma S, Xie H (2006) Regularized estimation in the accelerated failure time model with high dimensional covariate. Biometrics 62:813–820
Huang JZ, Wu CO, Zhou L (2004) Polynomial spline estimation and inference for varying-coefficient models with longitudinal data. Statistica Sinica 14:763–788
Johnson BA, Lin DY, Zeng D (2008) Penalized estimating functions and variable selection in semiparametric regression models. J Am Stat Assoc 103:672–680
Li GR, Peng H, Zhang J, Zhu LX (2012) Robust rank correlation based screening. Ann Stat 40:1846–1877
Li J, Ma S (2010) Interval-censored data with repeated measurements and a cured subgroup. Appl Stat 59:693–705
Li J, Zhang W (2011) A semiparametric threshold model for censored longitudinal data analysis. J Am Stat Assoc 106:685–696
Lian H, Li J, Tang X (2014) SCAD-penalized regression in additive partially linear proportional hazards models with an ultra-high-dimensional linear part. J Multivar Anal 125:50–64
Liu X, Wang L, Liang H (2011) Estimation and variable selection for semiparametric additive partially linear models. Statistica Sinica 21:1225–1248
Lu Y, Lemon W et al (2006) A gene expression signature predicts survival of subjects with state i non-small cell lung cancer. PLoS Med 3:2229–2243
Petrov V (1975) Sums of independent random variables. Springer-Verlag, New York
Shao F, Li J, Ma S, Lee M-LT (2014) Semiparametric varying-coefficient model for interval censored data with a cured proportion. Stat Med 33:1700–1712
Shedden K, Taylor JM et al (2008) Gene expression-based survival prediction in lung adenocarcinoma: a multi-site, blinded validation study. Nat Med 14:822–827
Stute W (1993) Consistent estimation under random censorship when covariates are present. J Multivar Anal 45:89–103
Stute W (1996) Distributional convergence under random censorship when covariables are present. Scand J Stat 23:461–471
VanderWeele TJ, Shpitser I (2013) On the definition of a confounder. Ann Stat 41:196–220
Wang H, Li B, Leng C (2009) Shrinkage tuning parameter selection with a diverging number of parameters. J R Stat Soc Ser B 71:671–683
Xie Y, Huang J (2009) SCAD-penalized regression in high-dimensional partially linear models. Ann Stat 37:673–696
Xie Y, Xiao G et al (2011) Robust gene expression signature from formalin-fixed paraffin- embedded samples predicts prognosis of non-small-cell lung cancer patients. Clin Cancer Res 17:5705–5714