Thuật toán Đường đi Điều chỉnh L1 cho Các Mô hình Tuyến tính Tổng quát

Mee Young Park1, Trevor Hastie2
1Google Inc., Mountain View, USA
2Stanford University - USA > > > >

Tóm tắt

Tóm tắt

Chúng tôi giới thiệu một thuật toán theo dõi đường đi cho các mô hình tuyến tính tổng quát được điều chỉnh L1. Quy trình điều chỉnh L1 rất hữu ích, đặc biệt vì nó, trên thực tế, lựa chọn các biến theo mức độ hình phạt trên chuẩn L1 của các hệ số, theo cách ít tham lam hơn so với lựa chọn theo hướng tiến - xóa theo hướng lùi. Thuật toán đường đi mô hình tuyến tính tổng quát tính toán hiệu quả các giải pháp dọc theo toàn bộ đường điều chỉnh bằng cách sử dụng phương pháp dự đoán - điều chỉnh trong tối ưu hóa lồi. Việc chọn chiều dài bước của tham số điều chỉnh là rất quan trọng trong việc kiểm soát độ chính xác tổng thể của các đường đi; chúng tôi đề xuất các chiến lược trực quan và linh hoạt để lựa chọn các giá trị thích hợp. Chúng tôi minh họa việc thực hiện với một số bộ dữ liệu giả lập và thực tế.

Từ khóa


Tài liệu tham khảo

Allgower, 1990, Numerical Continuation Methods, 10.1007/978-3-642-61257-2

Cox, 1972, Regression models and life-tables (with discussion), J. R. Statist. Soc. B, 34, 187, 10.1111/j.2517-6161.1972.tb00899.x

Crowley, 1977, 27

Efron, 2004, Least angle regression, Ann. Statist., 32, 407, 10.1214/009053604000000067

Firth, 1993, Bias reduction of maximum likelihood estimates, Biometrika, 80, 27, 10.1093/biomet/80.1.27

Garcia, 1981, Pathways to Solutions, Fixed Points and Equilibria

Genkin, 2004, Large-scale Bayesian logistic regression for text categorization

Golub, 1999, Molecular classification of cancer: class discovery and class prediction by gene expression monitoring, Science, 286, 531, 10.1126/science.286.5439.531

Hastie, 2004, The entire regularization path for the support vector machine, J. Mach. Learn. Res., 5, 1391

Hastie, 2001, Elements of Statistical Learning; Data Mining, Inference, and Prediction

Heinze, 2002, A solution to the problem of separation in logistic regression, Statist. Med., 21, 2409, 10.1002/sim.1047

Lokhorst, 1999, The lasso and generalised linear models

McCullagh, 1989, Generalized Linear Models, 10.1007/978-1-4899-3242-6

Munkres, 1991, Analysis on Manifolds

Osborne, 2000, A new approach to variable selection in least squares problems, IMA J. Numer. Anal., 20, 389, 10.1093/imanum/20.3.389

Rosset, 2004, Neural Information Processing Systems

Rosset, 2003, Piecewise linear regularized solution paths

Rosset, 2004, Boosting as a regularized path to a maximum margin classifier, J. Mach. Learn. Res., 5, 941

Shevade, 2003, A simple and efficient algorithm for gene selection using sparse logistic regression, Bioinformatics, 19, 2246, 10.1093/bioinformatics/btg308

Stein, 1981, Estimation of the mean of a multivariate normal distribution, Ann. Statist., 9, 1135, 10.1214/aos/1176345632

Tibshirani, 1996, Regression shrinkage and selection via the lasso, J. R. Statist. Soc., 58, 267, 10.1111/j.2517-6161.1996.tb02080.x

Tibshirani, 1997, The lasso method for variable selection in the cox model, Statist. Med, 16, 385, 10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3

Tibshirani, 2002, Diagnosis of multiple cancer types by shrunken centroids of gene expression, Proc. Natn. Acad. Sci. USA, 99, 6567, 10.1073/pnas.082099299

Zhao, 2004, Boosted lasso, 10.21236/ADA473146

Zhu, 2004, Classification of gene microarrays by penalized logistic regression, Biostatistics, 46, 505

Zhu, 2003, Neural Information Processing Systems

Zou, 2004, On the ‘‘degrees of freedom’’ of the lasso

Zou, 2005, Regularization and variable selection via the elastic net, J. R. Statist. Soc., 67, 301, 10.1111/j.1467-9868.2005.00503.x