Xem xét phân tán trong hồi quy kernel

Orcun Oltulu1, Fulya Gokalp Yavuz1
1Department of Statistics, Middle East Technical University, Ankara, Turkey

Tóm tắt

Trong vài thập kỷ qua, việc phân tán trong tính toán thống kê đã trở thành một xu hướng ngày càng gia tăng, và các nhà nghiên cứu đã nỗ lực đáng kể để chuyển đổi hoặc điều chỉnh các phương pháp và thuật toán thống kê đã biết sang chế độ song song. Lý do chính cho việc chuyển đổi sang quy trình song song là sự gia tăng nhanh chóng về kích thước và khối lượng dữ liệu cùng với sự phát triển phần cứng được thúc đẩy. Phương pháp phân chia và (kết hợp lại) (DnR) là một trong những phương pháp phân tán cho phép dữ liệu hoặc phương pháp hiện có được thực hiện bằng cách chia nhỏ nó thành các phần nhỏ hơn. Có thể sử dụng phương pháp DnR trong hầu hết các phương pháp hồi quy để làm sáng tỏ mối quan hệ giữa các dữ liệu. Mặc dù nhiều thư viện đã được tạo ra trong các ngôn ngữ lập trình hiện có cho nhiều phương pháp hồi quy, nhưng cách tiếp cận như vậy vẫn chưa được sử dụng cho hồi quy kernel. Tuy nhiên, cần lưu ý rằng phương pháp tính toán hồi quy kernel mất khá nhiều thời gian. Chính vì lý do này, phân tán sẽ là một chiến lược hữu ích để giảm thiểu thời gian tính toán trong hồi quy kernel. Trong nghiên cứu này, chúng tôi nhằm trình bày cách tiết kiệm thời gian được đạt được bằng cách sử dụng các phương pháp DnR cho hồi quy kernel với sự trợ giúp của một số chiến lược phân tán trong R. Kết quả cho thấy thời gian tính toán có thể được giảm tỷ lệ với sự trao đổi giữa thời gian và độ chính xác.

Từ khóa

#phân tán #hồi quy kernel #phương pháp DnR #tính toán song song #hiệu quả thời gian

Tài liệu tham khảo

Adeli H, Vishnubhotla P (1987) Parallel processing. Comput Aided Civ Infrastruct Eng 2(3):257–269 Benedetti JK (1977) On the nonparametric estimation of regression functions. J R Stat Soc Ser B (Methodological) 39(2):248–253 Calaway R, Weston S, Calaway MR (2015) Package ‘foreach’. R package pp 1–10 Calaway R, Weston S, Calaway MR (2017) Foreach. R Package, version 1.4.4 Chowdhury J, Chaudhuri P (2020) Convergence rates for kernel regression in infinite-dimensional spaces. Ann Inst Stat Math 72(2):471–509 Diggle PJ, Giorgi E (2019) Model-based geostatistics for global public health: methods and applications. CRC Press, Boca Raton Friedman JH (1991) Multivariate adaptive regression splines. Ann Stat 19(1):1–67 García-Portugués E (2022) Notes for Predictive Modeling. https://bookdown.org/egarpor/PM-UC3M/, version 5.9.9. ISBN 978-84-09-29679-8 Gramacki A (2018) Nonparametric kernel density estimation and its computational aspects, vol 37. Springer, Berlin Guo G (2012) Parallel statistical computing for statistical inference. J Stat Theory Pract 6(3):536–565 Guo G, You W, Qian G, Shao W (2015) Parallel maximum likelihood estimator for multiple linear regression models. J Comput Appl Math 273:251–263 Hayfield T, Racine JS (2008) Nonparametric econometrics: the np package. J Stat Softw 27(5):1–32 Hayfield T, Racine JS, Racine MJS (2013) npRmpi. R Package, version 0.60-2 Ho AT, Huynh KP, Jacho-Chavez DT (2011) npRmpi: A package for parallel distributed kernel estimation in R. J Appl Econ 26(2):344–349 Lopez-Novoa U, Sáenz J, Mendiburu A, Miguel-Alonso J (2015) An efficient implementation of kernel density estimation for multi-core and many-core architectures. Int J High Perform Comput Appl 29(3):331–347 Łukasik S (2007) Parallel computing of kernel density estimates with mpi. In: International conference on computational science. Springer, pp 726–733 Martino L, Read J (2021) A joint introduction to gaussian processes and relevance vector machines with connections to kalman filtering and other kernel smoothers. Inf Fusion 74:17–38 Michailidis PD, Margaritis KG (2013) Parallel computing of kernel density estimation with different multi-core programming models. In: 2013 21st Euromicro international conference on parallel, distributed, and network-based processing. IEEE, pp 77–85 Nadaraya EA (1965) On non-parametric estimates of density functions and regression curves. Theory Probab Appl 10(1):186–190 Parzen E (1962) On estimation of a probability density function and mode. Ann Math Stat 33(3):1065–1076 R Core Team (2021) R: a language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/ Racine J (2002) Parallel distributed kernel estimation. Comput Stat Data Anal 40(2):293–302 Rasmussen CE, Williams C (2006) Gaussian processes for machine learning, vol 32. MIT Press, Cambridge, p 68 Renaut RA (1998) A parallel multisplitting solution of the least squares problem. Numer Linear Algebra Appl 5(1):11–31 Rosenblatt M (1956) Remarks on some nonparametric estimates of a density function. Ann Math Stat 27(3):832–837 Stone CJ (1980) Optimal rates of convergence for nonparametric estimators. Ann Stat 1348–1360 Stone CJ (1982) Optimal global rates of convergence for nonparametric regression. Ann Stat 1040–1053 Takeda H, Farsiu S, Milanfar P (2007) Kernel regression for image processing and reconstruction. IEEE Trans Image Process 16(2):349–366 Tipping ME (2001) Sparse Bayesian learning and the relevance vector machine. J Mach Learn Res 1(June):211–244 Wen T, Yang F, Gu J, Chen S, Wang L, Xie Y (2018) An adaptive kernel regression method for 3d ultrasound reconstruction using speckle prior and parallel gpu implementation. Neurocomputing 275:208–223 Whang YJ (1998) Topics in advanced econometrics: estimation, testing, and specification of cross-section and time series models (Herman J bierens Cambridge university press, 1994). Econom Theory 14(3):369–374 Yatchew A (1998) Nonparametric regression techniques in economics. J Econ Lit 36(2):669–721 Yatracos YG (1988) A lower bound on the error in nonparametric regression type problems. Ann Stat 16(3):1180–1187 Yu H (2002) Rmpi: parallel statistical computing in r. R News 2(2):10–14