Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Lựa chọn đặc trưng dựa trên gần đúng phi lồi l0-norm với nhiều hạt nhân không xác định
Tóm tắt
Học hạt nhân đa dạng (MKL) cho việc lựa chọn đặc trưng sử dụng các hạt nhân để khám phá các thuộc tính phức tạp của các đặc trưng, đã được chứng minh là một trong những phương pháp hiệu quả nhất cho việc lựa chọn đặc trưng. Để thực hiện việc lựa chọn đặc trưng, một cách tự nhiên là sử dụng chuẩn l0 để tìm ra các giải pháp thưa. Tuy nhiên, bài toán tối ưu hóa liên quan đến chuẩn l0 là NP-khó. Do đó, các phương pháp MKL trước đây thường sử dụng chuẩn l1 để có được các tổ hợp hạt nhân thưa. Tuy nhiên, chuẩn l1, như một sự xấp xỉ lồi của chuẩn l0, đôi khi không thể đạt được giải pháp mong muốn cho bài toán điều chuẩn l0 và có thể dẫn đến mất độ chính xác trong dự đoán. Ngược lại, nhiều xấp xỉ phi lồi của chuẩn l0 đã được đề xuất và hoạt động tốt hơn trong nhiều phương pháp lựa chọn đặc trưng tuyến tính. Trong bài báo này, chúng tôi đề xuất một phương pháp MKL dựa trên chuẩn l0 mới (l0-MKL) cho việc lựa chọn đặc trưng, với các ràng buộc xấp xỉ phi lồi trên các hệ số tổ hợp hạt nhân nhằm tự động chọn các đặc trưng. Xem xét hiệu suất thực nghiệm tốt hơn của các hạt nhân không xác định so với các hạt nhân dương, l0-MKL của chúng tôi được xây dựng trên dạng nguyên thủy của học hạt nhân đa dạng không xác định cho việc lựa chọn đặc trưng. Bài toán tối ưu hóa phi lồi của l0-MKL được chuyển đổi thành lập phương trình của sự sai biệt giữa các hàm lồi (DC) và được giải quyết bằng thuật toán DC (DCA). Các thử nghiệm trên các tập dữ liệu thực tế cho thấy l0-MKL vượt trội hơn một số phương pháp hiện đại liên quan cả về việc lựa chọn đặc trưng và hiệu suất phân loại.
Từ khóa
#học hạt nhân đa dạng #lựa chọn đặc trưng #tối ưu hóa phi lồi #chuẩn l0 #chuẩn l1Tài liệu tham khảo
Bradley PS, Mangasarian OL (1998) Feature selection via concave minimization and support vector machines. In: Proceedings of fifteenth international conference on machine learning, vol 98, pp 82–90
Candes EJ, Wakin MB, Boyd S (2008) Enhancing sparsity by reweighted L1 minimization. J Fourier Anal Appl 14(5–6):877–905
Chen Z, Li J, Wei L (2007) A multiple kernel support vector machine scheme for feature selection and rule extraction from gene expression data of cancer tissue. Artif Intell Med 41(2): 161–175
Dileep AD, Sekhar CC (2009) Representation and feature selection using multiple kernel learning. In: Proceedings of the twenty-second international joint conference on neural networks. IEEE, pp 717–722
Dinh TP, Le Thi HA (2014) Recent advances in dc programming and dca. In: Transactions on computational intelligence XIII. Springer, pp 1–37
Fan J, Li R (2001) Variable selection via nonconcave penalized likelihood and its oracle properties. J Am Stat Assoc 96(456):1348–1360
Grant M, Boyd S, Ye Y (2008) Cvx: Matlab software for disciplined convex programming
Gribonval R, Nielsen M (2003) Sparse representations in unions of bases. IEEE Trans Inf Theory 49 (12):3320–3325
Hao Z, Yuan G, Yang X, Chen Z (2013) A primal method for multiple kernel learning. Neural Comput Appl 23(3-4):975–987
Le Thi HA, Dinh TP, Le HM, Vo XT (2015) Dc approximation approaches for sparse optimization. Eur J Oper Res 244(1): 26–46
Le Thi HA, Le HM, Dinh TP (2015) Feature selection in machine learning: an exact penalty approach using a difference of convex function algorithm. Mach Learn 101(1–3):163–186
Le Thi HA, Le HM, Dinh TP et al (2008) A dc programming approach for feature selection in support vector machines learning. Adv Data Anal Classif 2(3):259–278
Le Thi HA, Ouchani S et al (2008) Gene selection for cancer classification using dca. In: International conference on advanced data mining and applications. Springer, pp 62–72
López J, Maldonado S, Carrasco M (2018) Double regularization methods for robust feature selection and svm classification via dc programming. Inf Sci 429:377–389
Luo D, Ding C, Huang H (2010) Towards structural sparsity: an explicit l2/l0 approach. In: 2010 IEEE international conference on data mining, pp 344–353
Neumann J, Schnörr C, Steidl G (2005) Combined svm-based feature selection and classification. Mach Learn 61(1–3):129–150
Ong CS, An LTH (2013) Learning sparse classifiers with difference of convex functions algorithms. Optim Methods Softw 28(4):830–854
Peleg D, Meir R (2008) A bilinear formulation for vector sparsity optimization. Signal Process 88(2):375–389
Rinaldi F, Schoen F, Sciandrone M (2010) Concave programming for minimizing the zero-norm over polyhedral sets. Comput Optim Appl 46(3):467–486
Tao PD, An LTH (1997) Convex analysis approach to dc programming: theory, algorithms and applications. Acta Math Vietnam 22(1):289–355
Tibshirani R (1996) Regression shrinkage and selection via the lasso. J R Stat Soc: Ser B Methodol 58 (1):267–288
Varma M, Babu BR (2009) More generality in efficient multiple kernel learning. In: Proceedings of the twenty-sixth annual international conference on machine learning. ACM, pp 1065–1072
Wang F, Cao W, Xu Z (2018) Convergence of multi-block bregman admm for nonconvex composite problems. Sci China Inf Sci 61(12):122101
Xu HM, Xue H, Chen X, Wang Y (2017) Solving indefinite kernel support vector machine with difference of convex functions programming. In: AAAI, pp 2782–2788
Xue H, Song Y, Xu HM (2017) Multiple indefinite kernel learning for feature selection. In: Proceedings of the 26th international joint conference on artificial intelligence. AAAI Press, pp 3210–3216
Zou H, Hastie T (2005) Regularization and variable selection via the elastic net. J R Stat Soc 67(2):301–320