Học phân tán chống Byzantine cho vấn đề M-estimation thưa thớt

Machine Learning - Tập 112 - Trang 3773-3804 - 2021
Jiyuan Tu1, Weidong Liu2, Xiaojun Mao3
1School of Mathematical Sciences, Shanghai Jiao Tong University, Shanghai, China
2School of Mathematical Sciences - School of Life Sciences and Biotechnology - MoE Key Lab of Artificial Intelligence, Shanghai Jiao Tong University, Shanghai, China
3School of Data Science, Fudan University, Shanghai, China

Tóm tắt

Trong môi trường tính toán phân tán, thường có một tỷ lệ nhỏ máy móc bị hỏng và gửi thông tin sai lệch ngẫu nhiên đến máy chủ. Hiện tượng này được mô hình hóa như một sự cố Byzantine. Học phân tán bền vững với các sự cố Byzantine gần đây đã trở thành một chủ đề quan trọng trong nghiên cứu trí tuệ nhân tạo. Trong bài báo này, chúng tôi phát triển một phương pháp chống lại các sự cố Byzantine cho vấn đề M-estimation thưa thớt phân tán. Khi hàm mất mát không mượt, việc giải quyết bài toán tối ưu hóa không mượt có phạt theo cách trực tiếp có thể tốn kém về tính toán. Để giảm thiểu gánh nặng tính toán, chúng tôi tạo ra một biến phản hồi giả và biến đổi bài toán gốc thành một bài toán bình phương tối thiểu có phạt $$\ell _1$$, mà tính toán dễ hơn nhiều. Dựa trên ý tưởng này, chúng tôi phát triển một thuật toán phân tán tối ưu về truyền thông. Về mặt lý thuyết, chúng tôi chỉ ra rằng ước lượng mà chúng tôi đề xuất đạt được tỷ lệ hội tụ nhanh với chỉ một số lượng không đổi các vòng lặp. Hơn nữa, chúng tôi thiết lập một kết quả phục hồi hỗ trợ, điều này, theo hiểu biết của chúng tôi, là kết quả đầu tiên trong tài liệu về học phân tán bền vững với các sự cố Byzantine. Chúng tôi chứng minh tính hiệu quả của phương pháp chúng tôi trong mô phỏng.

Từ khóa

#học phân tán #sự cố Byzantine #M-estimation #phương pháp thống kê #tối ưu hóa phi tuyến

Tài liệu tham khảo

Agarwal, A., & Duchi, J.C. (2012). Distributed delayed stochastic optimization. In 2012 IEEE 51st IEEE Conference on Decision and Control (CDC), pp. 5451–5452. Alistarh, D., Allen-Zhu, Z., & Li, J. (2018). Byzantine stochastic gradient descent. In Advances in Neural Information Processing Systems, Curran Associates, Inc., vol 31. Beck, A., & Teboulle, M. (2009). A fast iterative shrinkage-thresholding algorithm for linear inverse problems. SIAM Journal on Imaging Sciences, 2(1), 183–202. Blanchard, P., El Mhamdi, E. M., Guerraoui, R. & Stainer, J. (2017). Machine learning with adversaries: Byzantine tolerant gradient descent. In Advances in Neural Information Processing Systems, Curran Associates, Inc., Vol. 30. Boyd, S., Parikh, N., Chu, E., Peleato, B., & Eckstein, J. (2011). Distributed optimization and statistical learning via the alternating direction method of multipliers. Foundations and Trends in Machine Learning, 3(1), 1–122. Bühlmann, P., & Van De Geer, S. (2011). Statistics for high-dimensional data: Methods, theory and applications. Berlin: Springer. Chen, X., Liu, W., Mao, X., & Yang, Z. (2020). Distributed high-dimensional regression under a quantile loss function. The Journal of Machine Learning Research, 21(182), 1–43. Chen, Y., Su, L., & Xu, J. (2017). Distributed statistical machine learning in adversarial settings. Proceedings of the ACM on Measurement and Analysis of Computing Systems, 1(2), 1–25. Fan, J., Fan, Y., & Barut, E. (2014). Adaptive robust variable selection. The Annals of Statistics, 42(1), 324–351. Fan, J., Guo, Y., & Wang, K. (2019). Communication-efficient accurate statistical estimation. arXiv e-prints arXiv:1906.04870. Feng, J., Xu, H. & Mannor, S. (2014). Distributed robust learning. arXiv e-prints arXiv:1409.5937. Hastie, T., Tibshirani, R., & Wainwright, M. (2015). Statistical learning with sparsity: The Lasso and Generalizations. Cambridge: CRC Press. Huber, P. J. (1973). Robust regression: Asymptotics, conjectures and Monte Carlo. The Annals of Statistics, 1(5), 799–821. Huber, P. J. (2004). Robust statistics (Vol. 523). New York: Wiley. Jordan, M. I., Lee, J. D., & Yang, Y. (2019). Communication-efficient distributed statistical inference. The Journal of the American Statistical Association, 114(526), 668–681. Koenker, R. (2005). Quantile Regression (Econometric Society Monographs; No. 38). Cambridge university press Koenker, R., & Hallock, K. F. (2001). Quantile regression. Journal of Economic Perspectives, 15(4), 143–156. Lamport, L., Shostak, R., & Pease, M. (1982). The byzantine generals problem. ACM Transactions on Programming Languages and Systems, 4(3), 382–401. Lecué, G., & Lerasle, M. (2020). Robust machine learning by median-of-means: Theory and practice. The Annals of Statistics, 48(2), 906–931. Loh, P.-L., & Wainwright, M. J. (2015). Regularized m-estimators with nonconvexity: Statistical and algorithmic theory for local optima. The Journal of Machine Learning Research, 16(1), 559–616. Loh, P.-L., & Wainwright, M. J. (2017). Support recovery without incoherence: A case for nonconvex regularization. The Annals of Statistics, 45(6), 2455–2482. Lugosi, G., & Mendelson, S. (2019). Regularization, sparse recovery, and median-of-means tournaments. Bernoulli, 25(3), 2075–2106. Ma, C., Wang, K., Chi, Y. & Chen, Y. (2019). Implicit regularization in nonconvex statistical estimation: Gradient descent converges linearly for phase retrieval, matrix completion, and blind deconvolution. Foundations of Computational Mathematics, 1–182. Mansoori, F. & Wei, E. (2017). Superlinearly convergent asynchronous distributed network newton method. In 2017 IEEE 56th Annual Conference on Decision and Control (CDC), pp. 2874–2879. Mei, S., Bai, Yu., & Montanari, A. (2018). The landscape of empirical risk for nonconvex losses. The Annals of Statistics, 46(6A), 2747–2774. Minsker, S. (2015). Geometric median and robust estimation in banach spaces. Bernoulli, 21(4), 2308–2335. Minsker, S. (2019). Distributed statistical estimation and rates of convergence in normal approximation. The Electronic Journal of Statistics, 13(2), 5213–5252. Ren, Z., Zhou, Z., Qiu, L., Deshpande, A., & Kalagnanam, J. (2020). Delay-adaptive distributed stochastic optimization. Proceedings of the AAAI Conference on Artificial Intelligence, 34(04), 5503–5510. Shamir, O., Srebro, N. & Zhang, T. (2014). Communication efficient distributed optimization using an approximate newton-type method. In Proceedings of the 31st International Conference on Machine Learning, Vol. 32, pp. 1000–1008. Su, L., & Xu, J. (2019). Securing distributed gradient descent in high dimensional statistical learning. Proceedings of the ACM on Measurement and Analysis of Computing Systems3(1). Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. The Journal of the Royal Statistical Society, Series B (Statistical Methodology), 58(1), 267–288. Wainwright, M. J. (2009). Sharp thresholds for high-dimensional and noisy sparsity recovery using \(\ell _1\)-constrained quadratic programming (lasso). IEEE Transactions on Information Theory, 55(5), 2183–2202. Wang, H., Li, R., & Tsai, C.-L. (2007). Tuning parameter selectors for the smoothly clipped absolute deviation method. Biometrika, 94(3), 553–568. Wang, J., Kolar, M., Srebro, N. & Zhang, T. (2017). Efficient distributed learning with sparsity. In Proceedings of the 34th International Conference on Machine Learning, Vol. 70, pp. 3636–3645. Xie, C., Koyejo, O. & Gupta, I. (2018). Generalized Byzantine-tolerant SGD. arXiv e-prints arXiv:1802.10116. Xie, C., Koyejo, S. & Gupta, I.. (2019). Zeno: Distributed stochastic gradient descent with suspicion-based fault-tolerance. In Proceedings of the 36th International Conference on Machine Learning, Vol. 97, pp. 6893–6901. Xie, C., Koyejo, S. & Gupta, I. (2020). Zeno++: Robust fully asynchronous SGD. In Proceedings of the 37th International Conference on Machine Learning, Vol. 119, pp. 10495–10503. Yin, D., Chen, Y., Kannan, R. & Bartlett, P. (2018). Byzantine-robust distributed learning: Towards optimal statistical rates. In Proceedings of the 35th International Conference on Machine Learning, Vol. 80, pp. 5650–5659. Yin, D., Chen, Y., Kannan, R. & Bartlett, P. (2019). Defending against saddle point attack in Byzantine-robust distributed learning. In Proceedings of the 36th International Conference on Machine Learning, Vol. 97, pp. 7074–7084. Zhao, P., & Yu, B. (2006). On model selection consistency of lasso. The Journal of Machine Learning Research, 7(90), 2541–2563. Zhou, Z., Mertikopoulos, P., Bambos, N., Glynn, P., Ye, Y., Li, L.-J. & Li, F.-F. (2018). Distributed asynchronous optimization with unbounded delays: How slow can you go?. In Proceedings of the 35th International Conference on Machine Learning, Vol. 80, pp. 5970–5979. Zhu, X., Li, F. & Wang, H. (2019). Least squares approximation for a distributed system. arXiv e-prints arXiv:1908.04904. Zou, H., Hastie, T., & Tibshirani, R. (2007). On the “degrees of freedom’’ of the lasso. The Annals of Statistics, 35(5), 2173–2192.