Lựa chọn đặc trưng dựa trên gần đúng phi lồi l0-norm với nhiều hạt nhân không xác định

Springer Science and Business Media LLC - Tập 50 - Trang 192-202 - 2019
Hui Xue1,2, Yu Song1,2
1School of Computer Science and Engineering, Southeast University, Nanjing, China
2MOE Key Laboratory of Computer Network and Information Integration, Southeast University, Nanjing, China

Tóm tắt

Học hạt nhân đa dạng (MKL) cho việc lựa chọn đặc trưng sử dụng các hạt nhân để khám phá các thuộc tính phức tạp của các đặc trưng, đã được chứng minh là một trong những phương pháp hiệu quả nhất cho việc lựa chọn đặc trưng. Để thực hiện việc lựa chọn đặc trưng, một cách tự nhiên là sử dụng chuẩn l0 để tìm ra các giải pháp thưa. Tuy nhiên, bài toán tối ưu hóa liên quan đến chuẩn l0 là NP-khó. Do đó, các phương pháp MKL trước đây thường sử dụng chuẩn l1 để có được các tổ hợp hạt nhân thưa. Tuy nhiên, chuẩn l1, như một sự xấp xỉ lồi của chuẩn l0, đôi khi không thể đạt được giải pháp mong muốn cho bài toán điều chuẩn l0 và có thể dẫn đến mất độ chính xác trong dự đoán. Ngược lại, nhiều xấp xỉ phi lồi của chuẩn l0 đã được đề xuất và hoạt động tốt hơn trong nhiều phương pháp lựa chọn đặc trưng tuyến tính. Trong bài báo này, chúng tôi đề xuất một phương pháp MKL dựa trên chuẩn l0 mới (l0-MKL) cho việc lựa chọn đặc trưng, với các ràng buộc xấp xỉ phi lồi trên các hệ số tổ hợp hạt nhân nhằm tự động chọn các đặc trưng. Xem xét hiệu suất thực nghiệm tốt hơn của các hạt nhân không xác định so với các hạt nhân dương, l0-MKL của chúng tôi được xây dựng trên dạng nguyên thủy của học hạt nhân đa dạng không xác định cho việc lựa chọn đặc trưng. Bài toán tối ưu hóa phi lồi của l0-MKL được chuyển đổi thành lập phương trình của sự sai biệt giữa các hàm lồi (DC) và được giải quyết bằng thuật toán DC (DCA). Các thử nghiệm trên các tập dữ liệu thực tế cho thấy l0-MKL vượt trội hơn một số phương pháp hiện đại liên quan cả về việc lựa chọn đặc trưng và hiệu suất phân loại.

Từ khóa

#học hạt nhân đa dạng #lựa chọn đặc trưng #tối ưu hóa phi lồi #chuẩn l0 #chuẩn l1

Tài liệu tham khảo

Bradley PS, Mangasarian OL (1998) Feature selection via concave minimization and support vector machines. In: Proceedings of fifteenth international conference on machine learning, vol 98, pp 82–90 Candes EJ, Wakin MB, Boyd S (2008) Enhancing sparsity by reweighted L1 minimization. J Fourier Anal Appl 14(5–6):877–905 Chen Z, Li J, Wei L (2007) A multiple kernel support vector machine scheme for feature selection and rule extraction from gene expression data of cancer tissue. Artif Intell Med 41(2): 161–175 Dileep AD, Sekhar CC (2009) Representation and feature selection using multiple kernel learning. In: Proceedings of the twenty-second international joint conference on neural networks. IEEE, pp 717–722 Dinh TP, Le Thi HA (2014) Recent advances in dc programming and dca. In: Transactions on computational intelligence XIII. Springer, pp 1–37 Fan J, Li R (2001) Variable selection via nonconcave penalized likelihood and its oracle properties. J Am Stat Assoc 96(456):1348–1360 Grant M, Boyd S, Ye Y (2008) Cvx: Matlab software for disciplined convex programming Gribonval R, Nielsen M (2003) Sparse representations in unions of bases. IEEE Trans Inf Theory 49 (12):3320–3325 Hao Z, Yuan G, Yang X, Chen Z (2013) A primal method for multiple kernel learning. Neural Comput Appl 23(3-4):975–987 Le Thi HA, Dinh TP, Le HM, Vo XT (2015) Dc approximation approaches for sparse optimization. Eur J Oper Res 244(1): 26–46 Le Thi HA, Le HM, Dinh TP (2015) Feature selection in machine learning: an exact penalty approach using a difference of convex function algorithm. Mach Learn 101(1–3):163–186 Le Thi HA, Le HM, Dinh TP et al (2008) A dc programming approach for feature selection in support vector machines learning. Adv Data Anal Classif 2(3):259–278 Le Thi HA, Ouchani S et al (2008) Gene selection for cancer classification using dca. In: International conference on advanced data mining and applications. Springer, pp 62–72 López J, Maldonado S, Carrasco M (2018) Double regularization methods for robust feature selection and svm classification via dc programming. Inf Sci 429:377–389 Luo D, Ding C, Huang H (2010) Towards structural sparsity: an explicit l2/l0 approach. In: 2010 IEEE international conference on data mining, pp 344–353 Neumann J, Schnörr C, Steidl G (2005) Combined svm-based feature selection and classification. Mach Learn 61(1–3):129–150 Ong CS, An LTH (2013) Learning sparse classifiers with difference of convex functions algorithms. Optim Methods Softw 28(4):830–854 Peleg D, Meir R (2008) A bilinear formulation for vector sparsity optimization. Signal Process 88(2):375–389 Rinaldi F, Schoen F, Sciandrone M (2010) Concave programming for minimizing the zero-norm over polyhedral sets. Comput Optim Appl 46(3):467–486 Tao PD, An LTH (1997) Convex analysis approach to dc programming: theory, algorithms and applications. Acta Math Vietnam 22(1):289–355 Tibshirani R (1996) Regression shrinkage and selection via the lasso. J R Stat Soc: Ser B Methodol 58 (1):267–288 Varma M, Babu BR (2009) More generality in efficient multiple kernel learning. In: Proceedings of the twenty-sixth annual international conference on machine learning. ACM, pp 1065–1072 Wang F, Cao W, Xu Z (2018) Convergence of multi-block bregman admm for nonconvex composite problems. Sci China Inf Sci 61(12):122101 Xu HM, Xue H, Chen X, Wang Y (2017) Solving indefinite kernel support vector machine with difference of convex functions programming. In: AAAI, pp 2782–2788 Xue H, Song Y, Xu HM (2017) Multiple indefinite kernel learning for feature selection. In: Proceedings of the 26th international joint conference on artificial intelligence. AAAI Press, pp 3210–3216 Zou H, Hastie T (2005) Regularization and variable selection via the elastic net. J R Stat Soc 67(2):301–320