Sai số bình phương trung bình (RMSE) hay sai số tuyệt đối trung bình (MAE)? - Lập luận chống lại việc tránh sử dụng RMSE trong tài liệu

Geoscientific Model Development - Tập 7 Số 3 - Trang 1247-1250
Tianfeng Chai1,2, Roland R. Draxler2
1Cooperative Institute for Climate and Satellites, University of Maryland, College Park, MD 20740, USA
2NOAA Air Resources Laboratory (ARL), NOAA Center for Weather and Climate Prediction, 5830 University Research Court College Park, MD 20740, USA

Tóm tắt

Tóm tắt. Cả sai số bình phương trung bình (RMSE) và sai số tuyệt đối trung bình (MAE) đều thường được sử dụng trong các nghiên cứu đánh giá mô hình. Willmott và Matsuura (2005) đã đề xuất rằng RMSE không phải là một chỉ số tốt về hiệu suất trung bình của mô hình và có thể là một chỉ báo gây hiểu lầm về sai số trung bình, do đó MAE sẽ là một chỉ số tốt hơn cho mục đích đó. Mặc dù một số lo ngại về việc sử dụng RMSE được Willmott và Matsuura (2005) và Willmott et al. (2009) nêu ra là có cơ sở, sự đề xuất tránh sử dụng RMSE thay vì MAE không phải là giải pháp. Trích dẫn những bài báo đã nói ở trên, nhiều nhà nghiên cứu đã chọn MAE thay vì RMSE để trình bày thống kê đánh giá mô hình của họ khi việc trình bày hoặc thêm các chỉ số RMSE có thể có lợi hơn. Trong ghi chú kỹ thuật này, chúng tôi chứng minh rằng RMSE không mơ hồ trong ý nghĩa của nó, trái ngược với những gì được Willmott et al. (2009) tuyên bố. RMSE thích hợp hơn để đại diện cho hiệu suất của mô hình khi phân phối sai số được kỳ vọng là phân phối Gaussian. Ngoài ra, chúng tôi chỉ ra rằng RMSE thỏa mãn yêu cầu bất đẳng thức tam giác cho một chỉ số đo khoảng cách, trong khi Willmott et al. (2009) chỉ ra rằng các thống kê dựa trên tổng bình phương không thỏa mãn quy tắc này. Cuối cùng, chúng tôi đã thảo luận về một số tình huống mà việc sử dụng RMSE sẽ có lợi hơn. Tuy nhiên, chúng tôi không tranh cãi rằng RMSE ưu việt hơn MAE. Thay vào đó, một sự kết hợp của các chỉ số, bao gồm nhưng chắc chắn không giới hạn ở RMSEs và MAEs, thường cần thiết để đánh giá hiệu suất của mô hình.\n

Từ khóa

#Sai số bình phương trung bình #sai số tuyệt đối trung bình #đánh giá mô hình #phân phối Gaussian #thống kê dựa trên tổng bình phương #bất đẳng thức tam giác #hiệu suất mô hình.

Tài liệu tham khảo

Chai, T., Carmichael, G. R., Tang, Y., Sandu, A., Heckel, A., Richter, A., and Burrows, J. P.: Regional NOx emission inversion through a four-dimensional variational approach using SCIAMACHY tropospheric NO2 column observations, Atmos. Environ., 43, 5046–5055, 2009.

Chai, T., Kim, H.-C., Lee, P., Tong, D., Pan, L., Tang, Y., Huang, J., McQueen, J., Tsidulko, M., and Stajner, I.: Evaluation of the United States National Air Quality Forecast Capability experimental real-time predictions in 2010 using Air Quality System ozone and NO2 measurements, Geosci. Model Dev., 6, 1831–1850, https://doi.org/10.5194/gmd-6-1831-2013, 2013.

Chatterjee, A., Engelen, R. J., Kawa, S. R., Sweeney, C., and Michalak, A. M.: Background error covariance estimation for atmospheric CO2 data assimilation, J. Geophys. Res., 118, 10140–10154, 2013.

Horn, R. A. and Johnson, C. R.: Matrix Analysis, Cambridge University Press, 1990.

Huber, P. and Ronchetti, E.: Robust statistics, Wiley New York, 2009.

Jerez, S., Pedro Montavez, J., Jimenez-Guerrero, P., Jose Gomez-Navarro, J., Lorente-Plazas, R., and Zorita, E.: A multi-physics ensemble of present-day climate regional simulations over the Iberian Peninsula, Clim. Dynam., 40, 3023–3046, 2013.

McKeen, S. A., Wilczak, J., Grell, G., Djalalova, I., Peckham, S., Hsie, E., Gong, W., Bouchet, V., Menard, S., Moffet, R., McHenry, J., McQueen, J., Tang, Y., Carmichael, G. R., Pagowski, M., Chan, A., Dye, T., Frost, G., Lee, P., and Mathur, R.: Assessment of an ensemble of seven real-time ozone forecasts over eastern North America during the summer of 2004, J. Geophys. Res., 110, D21307, https://doi.org/10.1029/2005JD005858, 2005.

Savage, N. H., Agnew, P., Davis, L. S., Ordóñez, C., Thorpe, R., Johnson, C. E., O'Connor, F. M., and Dalvi, M.: Air quality modelling using the Met Office Unified Model (AQUM OS24-26): model description and initial evaluation, Geosci. Model Dev., 6, 353–372, https://doi.org/10.5194/gmd-6-353-2013, 2013.

Taylor, M. H., Losch, M., Wenzel, M., and Schroeter, J.: On the sensitivity of field reconstruction and prediction using empirical orthogonal functions derived from gappy data, J. Climate, 26, 9194–9205, 2013.

Tukey, J. W.: Exploratory Data Analysis, Addison-Wesley, 1977.

Willmott, C. and Matsuura, K.: Advantages of the Mean Absolute Error (MAE) over the Root Mean Square Error (RMSE) in assessing average model performance, Clim. Res., 30, 79–82, 2005.

Willmott, C. J., Matsuura, K., and Robeson, S. M.: Ambiguities inherent in sums-of-squares-based error statistics, Atmos. Environ., 43, 749–752, 2009.