Thuật toán Đường đi Điều chỉnh L1 cho Các Mô hình Tuyến tính Tổng quát
Tóm tắt
Chúng tôi giới thiệu một thuật toán theo dõi đường đi cho các mô hình tuyến tính tổng quát được điều chỉnh L1. Quy trình điều chỉnh L1 rất hữu ích, đặc biệt vì nó, trên thực tế, lựa chọn các biến theo mức độ hình phạt trên chuẩn L1 của các hệ số, theo cách ít tham lam hơn so với lựa chọn theo hướng tiến - xóa theo hướng lùi. Thuật toán đường đi mô hình tuyến tính tổng quát tính toán hiệu quả các giải pháp dọc theo toàn bộ đường điều chỉnh bằng cách sử dụng phương pháp dự đoán - điều chỉnh trong tối ưu hóa lồi. Việc chọn chiều dài bước của tham số điều chỉnh là rất quan trọng trong việc kiểm soát độ chính xác tổng thể của các đường đi; chúng tôi đề xuất các chiến lược trực quan và linh hoạt để lựa chọn các giá trị thích hợp. Chúng tôi minh họa việc thực hiện với một số bộ dữ liệu giả lập và thực tế.
Từ khóa
Tài liệu tham khảo
Cox, 1972, Regression models and life-tables (with discussion), J. R. Statist. Soc. B, 34, 187, 10.1111/j.2517-6161.1972.tb00899.x
Crowley, 1977, 27
Firth, 1993, Bias reduction of maximum likelihood estimates, Biometrika, 80, 27, 10.1093/biomet/80.1.27
Garcia, 1981, Pathways to Solutions, Fixed Points and Equilibria
Genkin, 2004, Large-scale Bayesian logistic regression for text categorization
Golub, 1999, Molecular classification of cancer: class discovery and class prediction by gene expression monitoring, Science, 286, 531, 10.1126/science.286.5439.531
Hastie, 2004, The entire regularization path for the support vector machine, J. Mach. Learn. Res., 5, 1391
Hastie, 2001, Elements of Statistical Learning; Data Mining, Inference, and Prediction
Heinze, 2002, A solution to the problem of separation in logistic regression, Statist. Med., 21, 2409, 10.1002/sim.1047
Lokhorst, 1999, The lasso and generalised linear models
Munkres, 1991, Analysis on Manifolds
Osborne, 2000, A new approach to variable selection in least squares problems, IMA J. Numer. Anal., 20, 389, 10.1093/imanum/20.3.389
Rosset, 2004, Neural Information Processing Systems
Rosset, 2003, Piecewise linear regularized solution paths
Rosset, 2004, Boosting as a regularized path to a maximum margin classifier, J. Mach. Learn. Res., 5, 941
Shevade, 2003, A simple and efficient algorithm for gene selection using sparse logistic regression, Bioinformatics, 19, 2246, 10.1093/bioinformatics/btg308
Stein, 1981, Estimation of the mean of a multivariate normal distribution, Ann. Statist., 9, 1135, 10.1214/aos/1176345632
Tibshirani, 1996, Regression shrinkage and selection via the lasso, J. R. Statist. Soc., 58, 267, 10.1111/j.2517-6161.1996.tb02080.x
Tibshirani, 1997, The lasso method for variable selection in the cox model, Statist. Med, 16, 385, 10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3
Tibshirani, 2002, Diagnosis of multiple cancer types by shrunken centroids of gene expression, Proc. Natn. Acad. Sci. USA, 99, 6567, 10.1073/pnas.082099299
Zhu, 2004, Classification of gene microarrays by penalized logistic regression, Biostatistics, 46, 505
Zhu, 2003, Neural Information Processing Systems
Zou, 2004, On the ‘‘degrees of freedom’’ of the lasso