Máy vector hỗ trợ bị phạt theo cấp bậc với các biến được nhóm

Sungwan Bang1, Jongkyeong Kang1, Myoungshic Jhun2, Eunkyung Kim2
1Department of Mathematics, Korea Military Academy, Seoul, Republic of Korea
2Department of Statistics, Korea University, Seoul, Republic of Korea

Tóm tắt

Khi các đặc trưng đầu vào được nhóm tự nhiên hoặc được tạo ra bởi các yếu tố trong một bài toán phân loại tuyến tính, việc xác định những nhóm hoặc yếu tố quan trọng thường có ý nghĩa hơn việc xác định các đặc trưng đơn lẻ. Máy vector hỗ trợ (SVM) sử dụng chuẩn F∞-norm và SVM bị phạt nhóm lasso đã được phát triển để thực hiện phân loại đồng thời và lựa chọn yếu tố. Tuy nhiên, các phương pháp SVM bị phạt theo nhóm này có thể gặp phải vấn đề về tính không hiệu quả trong việc ước tính và thiếu nhất quán trong việc lựa chọn mô hình vì chúng không thể thực hiện việc lựa chọn đặc trưng trong một nhóm được xác định. Để khắc phục hạn chế này, chúng tôi đề xuất SVM bị phạt theo cấp bậc (H-SVM) không chỉ xác định hiệu quả các nhóm quan trọng mà còn loại bỏ các đặc trưng không liên quan trong một nhóm đã được xác định. Các kết quả số được trình bày để chứng minh hiệu suất cạnh tranh của H-SVM mới đề xuất so với các phương pháp SVM hiện có.

Từ khóa

#Máy vector hỗ trợ #SVM #phân loại #lựa chọn yếu tố #phạt nhóm #phạt theo cấp bậc

Tài liệu tham khảo

Bang S, Jhun M (2012) Simultaneous estimation and factor selection in quantile regression via adaptive sup-norm regularization. Comput Stat Data Anal 56:813–826 Bang S, Jhun M (2014) Adaptive sup-norm regularized simultaneous multiple quantiles regression. Statistics 48:17–33 Breiman L (1995) Better subset regression using the nonnegative garrote. Technometrics 37:373–384 Chapelle O, Keerthi S (2008) Multi-class feature selection with support vector machines. In: Proceedings of the Amercian Statistical Association Frank I, Friedman J (1993) A statistical view of some chemometrics regression tools. Technometrics 35:109–148 Hastie T, Tibshirani R, Friedman J (2001) The Elements of Statistical Learning. Springer-Verlag, New York Hoerl A, Kennard R (1970) Ridge regression: Biased estimation for nonorthogonal problems. Technometrics 12:55–67 Kim Y, Kim J, Kim Y (2006) Blockwise sparse regression. Stat Sin 16:375–390 Meier L, van de Geer S, Buhlmann P (2008) The group lasso for logistic regression. J Roy Stat Soc B 70:53–71 R Core Team (2013) R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna. http://www.R-project.org/ Tibshirani R (1996) Regression shrinkage and selection via the lasso. J Roy Stat Soc B 58:267–288 Turlach B, Venables W, Wright S (2005) Simultaneous variable selection. Technometrics 47:349–363 Vapnik V (1995) The nature of statistical learning theory. Springer-Verlag, New York Wang H, Leng C (2008) A note on adaptive group lasso. Comput Stat Data Anal 52:5277–5286 Wang S, Nan B, Zhou N, Zhu J (2009) Hierarchically penalized Cox regression with grouped variables. Biometrika 96:307–322 Yang Y, Zou H (2014) A fast unified algorithm for solving group-lasso penalize learning problems. Stat Comput. doi:10.1007/s11222-014-9498-5 Yuan M, Lin Y (2006) Model selection and estimation in regression with grouped variables. J Roy Stat Soc B 68:49–67 Zhang H, Liu Y, Wu Y, Zhu J (2008) Variable selection for multicategory svm via sup-norm regularization. Electr J Stat 2:149–167 Zhao P, Rocha G, Yu B (2009) The composite absolute penalties family for grouped and hierarchical variable selection. Ann Stat 37:3468–3497 Zhou N, Zhu J (2010) Group variable selection via a hierarchical lasso and its oracle property. Stat Interf 3:557–574 Zhu J, Rosset S, Hastie T, Tibshirani R (2003) 1-norm support vector machine. Neural Inf Proc Syst 16 Zou H, Yuan M (2008) The F ∞-norm support vector machine. Stat Sin 18:379–398 Zou H, Yuan M (2008) Regularized simultaneous model selection in multiple quantiles regression. Comput Stat Data Anal 52:5296–5304