Ảnh hưởng của phân chia dữ liệu đến hiệu suất của các mô hình học máy trong dự đoán độ bền cắt của đất
Tóm tắt
Mục tiêu chính của nghiên cứu này là đánh giá và so sánh hiệu suất của các thuật toán học máy (ML) khác nhau, cụ thể là Mạng Nơron Nhân Tạo (ANN), Máy Học Tăng Cường (ELM) và thuật toán Cây Tăng Cường (Boosted), khi xem xét ảnh hưởng của các tỷ lệ đào tạo đối với kiểm tra trong việc dự đoán độ bền cắt của đất, một trong những tính chất kỹ thuật địa chất quan trọng nhất trong thiết kế và xây dựng công trình. Để thực hiện điều này, một cơ sở dữ liệu gồm 538 mẫu đất thu thập từ dự án nhà máy điện Long Phú 1, Việt Nam, đã được sử dụng để tạo ra các bộ dữ liệu cho quá trình mô hình hóa. Các tỷ lệ khác nhau (tức là 10/90, 20/80, 30/70, 40/60, 50/50, 60/40, 70/30, 80/20, và 90/10) đã được sử dụng để chia bộ dữ liệu thành bộ dữ liệu đào tạo và kiểm tra nhằm đánh giá hiệu suất của các mô hình. Các chỉ số thống kê phổ biến, chẳng hạn như Lỗi Bình Phương Trung Bình (RMSE), Lỗi Tuyệt Đối Trung Bình (MAE) và Hệ Số Tương Quan (R), đã được sử dụng để đánh giá khả năng dự báo của các mô hình dưới các tỷ lệ đào tạo và kiểm tra khác nhau. Ngoài ra, mô phỏng Monte Carlo đã được thực hiện đồng thời để đánh giá hiệu suất của các mô hình đề xuất, có tính đến ảnh hưởng của lấy mẫu ngẫu nhiên. Kết quả cho thấy mặc dù cả ba mô hình ML đều hoạt động tốt, nhưng ANN là mô hình chính xác nhất và ổn định nhất về mặt thống kê sau 1000 lần mô phỏng Monte Carlo (R Trung Bình = 0.9348) so với các mô hình khác như Boosted (R Trung Bình = 0.9192) và ELM (R Trung Bình = 0.8703). Điều tra về hiệu suất của các mô hình cho thấy khả năng dự báo của các mô hình ML bị ảnh hưởng lớn bởi các tỷ lệ đào tạo/kiểm tra, trong đó tỷ lệ 70/30 thể hiện hiệu suất tốt nhất của các mô hình. Một cách ngắn gọn, kết quả được trình bày ở đây thể hiện một cách thức hiệu quả trong việc lựa chọn các tỷ lệ dữ liệu phù hợp và mô hình ML tốt nhất để dự đoán chính xác độ bền cắt của đất, điều này sẽ hữu ích trong các giai đoạn thiết kế và kỹ thuật của các dự án xây dựng.
Từ khóa
#Học máy #độ bền cắt của đất #Mạng Nơron Nhân Tạo #Máy Học Tăng Cường #thuật toán Cây Tăng Cường #mô phỏng Monte Carlo #địa chất công trình #phân chia dữ liệu #chỉ số thống kê #kỹ thuật dân dụngTài liệu tham khảo
B. M. Das, 2013, Principles of Geotechnical Engineering
M. Cha, 2007, Shear strength estimation of sandy soils using shear wave velocity, Geotechnical Testing Journal, 30, 484, 10.1520/GTJ100011
E. A. Garven, Evaluation of empirical procedures for predicting the shear strength of unsaturated soils, 2570
J. O. Ohu, 1986, Shear strength prediction of compacted soils with varying added organic matter contents, Transactions of the ASAE, 29, 351, 10.13031/2013.30151
S. G. Wright, 2005, Evaluation of Soil Shear Strengths for Slope and Retaining Wall Stability Analyses with Emphasis on High Plasticity Clays
T.-T. Le, 2020, Development of 48-hour precipitation forecasting model using nonlinear autoregressive neural network, CIGOS 2019, Innovation for Sustainable Infrastructure, 1191
D. T. Bui, 2019, A swarm intelligence-based machine learning approach for predicting soil shear strength for road construction: a case study at Trung Luong National Expressway Project (Vietnam), Engineering with Computers, 35, 955, 10.1007/s00366-018-0643-1
D. T. Bui, 2012, Landslide susceptibility mapping at Hoa Binh province (Vietnam) using an adaptive neuro-fuzzy inference system and GIS, Computers & Geosciences, 45, 199, 10.1016/j.cageo.2011.10.031
D. J. Armaghani, 2020, A comparative study of ANN and ANFIS models for the prediction of cement-based mortar materials compressive strength, Neural Computing and Applications, 1
P. G. Asteris, 2020, A novel heuristic algorithm for the modeling and risk assessment of the COVID-19 pandemic phenomenon, Computer Modeling in Engineering & Sciences, 125, 815, 10.32604/cmes.2020.013280
D. J. Armaghani, 2020, Application of group method of data handling technique in assessing deformation of rock mass, Applied Metaheuristic Computing, 1, 1
J. Qiu, 2016, A survey of machine learning for big data processing, EURASIP Journal on Advances in Signal Processing, 2016, 67, 10.1186/s13634-016-0355-x
P. G. Asteris, 2020, On the metaheuristic models for the prediction of cement-metakaolin mortars compressive strength, Metaheuristic Computing and Applications, 1, 063
H.-B. Ly, 2020, Estimation of axial load-carrying capacity of concrete-filled steel tubes using surrogate models, Neural Computing and Applications, 1
P. G. Asteris, 2019, Concrete compressive strength using artificial neural networks, Neural Computing and Applications, 1
T.-T. Le, 2020, A robustness analysis of different nonlinear autoregressive networks using Monte Carlo simulations for predicting high fluctuation rainfall, Micro-electronics and Telecommunication Engineering, 205
M. Zięba, 2016, Ensemble boosted trees with synthetic features generation in application to bankruptcy prediction, Expert Systems with Applications, 58, 93, 10.1016/j.eswa.2016.04.001
G.-B. Huang, 2011, Extreme learning machine for regression and multiclass classification, IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 42, 513, 10.1109/TSMCB.2011.2168604
G.-B. Huang, Extreme learning machine: a new learning scheme of feedforward neural networks, 985
S. Mordechai, 2012, Applications of Monte Carlo Method in Science and Engineering
C. Verma, Attitude prediction towards ICT and mobile technology for the real-time: an experimental study using machine learning, 247
Z. H. Khan, 2011, Price prediction of share market using artificial neural network (ANN), International Journal of Computer Applications, 22, 42, 10.5120/2552-3497