Cắt tỉa Bit: phân loại định lượng bảo toàn độ chính xác một cách chính xác về mặt thống kê với nén dữ liệu, được đánh giá trong các Công cụ netCDF (NCO, v4.4.8+)

Geoscientific Model Development - Tập 9 Số 9 - Trang 3199-3211
Charles S. Zender1
1Departments of Earth System Science and Computer Science, University of California, Irvine, Irvine, CA 92697-3100, USA

Tóm tắt

Tóm tắt. Các mô hình và phép đo khoa học trái đất tạo ra độ chính xác giả (các dữ liệu không có nghĩa khoa học) làm lãng phí không gian lưu trữ. Độ chính xác giả có thể dẫn đến sự hiểu lầm (bằng cách ngụ ý rằng nhiễu là tín hiệu) và có thể không có ý nghĩa khoa học, đặc biệt là đối với các phép đo. Ngược lại, nén có mất mát có thể vừa tiết kiệm (lưu trữ không gian) vừa mang tính hướng dẫn (làm rõ những hạn chế của dữ liệu) mà không làm ảnh hưởng đến tính toàn vẹn khoa học của dữ liệu. Do đó, sự định lượng dữ liệu có thể là phù hợp bất kể liệu có lo ngại về hạn chế không gian hay không. Chúng tôi giới thiệu, triển khai và đặc trưng hóa một phương pháp nén có mất mát mới phù hợp cho dữ liệu số dấu phẩy động IEEE. Thuật toán Cắt tỉa Bit mới của chúng tôi lần lượt cắt (về không) và đặt (về một) các bit có ý nghĩa ít nhất của các giá trị liên tiếp để bảo tồn độ chính xác mong muốn. Đây là một biến thể đối xứng, hai phía của một thuật toán đôi khi được gọi là Cắt bớt Bit, mà định lượng các giá trị chỉ bằng cách đặt các bit về không. Biến thể của chúng tôi loại bỏ độ thiên lệch thấp giả tạo được tạo ra bởi việc luôn luôn đặt các bit về không, và làm cho Cắt tỉa Bit thích hợp hơn cho các mảng và các trường đa chiều mà thống kê trung bình của chúng là quan trọng. Cắt tỉa Bit phụ thuộc vào nén không mất mát tiêu chuẩn để đạt được sự giảm bớt không gian lưu trữ thực tế, vì vậy chúng tôi đã thử nghiệm Cắt tỉa Bit thông qua việc áp dụng thuật toán nén DEFLATE đối với dữ liệu khí hậu đã được cắt tỉa bit và dữ liệu khí hậu độ chính xác đầy đủ được lưu trữ trong các định dạng netCDF3, netCDF4, HDF4 và HDF5. Cắt tỉa Bit giảm không gian lưu trữ cần thiết cho dữ liệu khí hậu chưa nén và đã nén ban đầu từ 25–80% và 5–65%, tương ứng, đối với các giá trị độ chính xác đơn (trường hợp phổ biến nhất cho dữ liệu khí hậu) được định lượng để giữ 1–5 chữ số thập phân chính xác. Tiềm năng giảm thiểu lớn hơn cho các tập dữ liệu độ chính xác kép. Khi được sử dụng mạnh mẽ (tức là, chỉ giữ lại 1–2 chữ số), Cắt tỉa Bit tạo ra sự giảm không gian lưu trữ tương đương với các kỹ thuật định lượng khác như Đóng gói Tuyến tính. Khác với Đóng gói Tuyến tính, mà độ chính xác đảm bảo nhanh chóng giảm theo phạm vi động tương đối hẹp của các giá trị mà nó có thể nén, Cắt tỉa Bit đảm bảo độ chính xác xác định trong toàn bộ phạm vi số dấu phẩy động. Sự định lượng dữ liệu qua Cắt tỉa Bit là không thể đảo ngược (tức là, có mất mát) nhưng vẫn minh bạch, có nghĩa là không yêu cầu xử lý thêm từ người dùng/độc giả dữ liệu. Do đó, Cắt tỉa Bit có thể dễ dàng giảm khối lượng lưu trữ dữ liệu mà không hy sinh độ chính xác khoa học hoặc tạo thêm gánh nặng cho người dùng.

Từ khóa


Tài liệu tham khảo

Burtscher, M. and Ratanaworabhan, P.: FPC: A high-speed compressor for double-precision floating-point data, IEEE T. Comput., 58, 18–31, https://doi.org/10.1109/TC.2008.131, 2009.

Caron, J.: Compression by scaling and offset, available at: http://www.unidata.ucar.edu/blogs/developer/entry/compression_by_scaling_and_offfset (last access: 13 September 2016), 2014a.

Caron, J.: Compression by bit shaving, available at: http://www.unidata.ucar.edu/blogs/developer/entry/compression_by_bit_shaving (last access: 13 September 2016), 2014b.

Collet, Y.: LZ4 lossless compression algorithm, available at: http://lz4.org (last access: 13 September 2016), 2013.

Dennis, J. M., Edwards, J., Evans, K. J., Guba, O., Lauritzen, P. H., Mirin, A. A., St-Cyr, A., Taylor, M. A., and Worley, P. H.: CAM-SE: A scalable spectral element dynamical core for the Community Atmosphere Model, Int. J. High Perform. C., 26, 74–89, https://doi.org/10.1177/1094342011428142, 2012.

Deutsch, L. P.: DEFLATE compressed data format specification version 1.3, Tech. Rep. IETF RFC1951, Internet Engineering Task Force, Menlo Park, CA, USA, https://doi.org/10.17487/RFC1951, 1996.

Eaton, B., Gregory, J., Drach, B., Taylor, K., and Hankin, S.: NetCDF Climate and Forecast (CF) metadata conventions, available at: http://cfconventions.org/cf-conventions, last access: 13 September 2016.

Gailly, J.-L. and Adler, M.: zlib documentation, available at: http://zlib.net (last access: 13 September 2016), 2000.

Gregory, J.: The CF metadata standard, CLIVAR Exchanges, 8, 4, available at: http://cfconventions.org/Data/cf-documents/overview/article.pdf (last access: 13 September 2016), 2003.

HDF Group: HDF5: API Specification Reference Manual, The HDF Group, Champaign-Urbana, IL, USA, 2015.

IEEE: IEEE standard for floating-point arithmetic, Tech. Rep. ISO/IEC/IEEE 60559 (IEEE Std 754-2008), IEEE Computer Society, Piscataway, NJ, USA, 2008.

Isenburg, M., Lindstrom, P., and Snoeyink, J.: Lossless compression of predicted floating-point geometry, Comput. Aided Design, 37, 869–877, https://doi.org/10.1016/j.cad.2004.09.015, 2005.

Krotkov, N. A., McClure, B., Dickerson, R. R., Carn, S. A., Li, C., Bhartia, P. K., Yang, K., Krueger, A. J., Li, Z., Levelt, P. F., Chen, H., Wang, P., and Lu, D.: Validation of SO2 retrievals from the Ozone Monitoring Instrument over NE China, J. Geophys. Res., 113, D16S40, https://doi.org/10.1029/2007JD008818, 2008.

Liu, S., Huang, X., Ni, Y., Fu, H., and Yang, G.: A high performance compression method for climate data, in: IEEE International Symposium on Parallel and Distributed Processing with Applications, 26–28 August 2014, Milan, Italy, 68–77, https://doi.org/10.1109/ISPA.2014.18, 2014.

Rew, R., Hartnett, E., and Caron, J.: NetCDF-4: Software implementing an enhanced data model for the geosciences, in: Proceedings of the 22nd AMS Conference on Interactive Information and Processing Systems for Meteorology, 24–28 January 2006, p. 6.6, American Meteorological Society, AMS Press, Boston, MA, USA, 2006.

Rew, R., Davis, G., Emmerson, S., and Davies, H.: The NetCDF Users' Guide, Version 3.6.1, University Corporation for Atmospheric Research, Boulder, CO, USA, available at: http://www.unidata.ucar.edu/software/netcdf/docs/user_guide.html, last access: 13 September 2016.

Rienecker, M. M., Suarez, M. J., Gelaro, R., Todling, R., Bacmeister, J., Liu, E., Bosilovich, M. G., Schubert, S. D., Takacs, L., and Kim, G.-K.: MERRA: NASA's modern-era retrospective analysis for research and applications, J. Climate, 24, 3624–3648, 2011.

Salomon, D. and Molta, G.: Handbook of Data Compression, 5th ed., Springer-Verlag, London, UK, 2010.

Sayood, K. (Ed.): Lossless Compression Handbook, Academic Press, San Diego, CA, USA, 488 pp., 2003.

Seward, J.: bzip2 documentation, available at: http://bzip.org (last access: 13 September 2016), 2007.

Silver, J. D. and Zender, C. S.: Finding the Goldilocks zone: Compression-error trade-off for large gridded datasets, Geosci. Model Dev. Discuss., https://doi.org/10.5194/gmd-2016-177, in review, 2016.

Zender, C. S.: Analysis of self-describing gridded geoscience data with netCDF Operators (NCO), Environ. Modell. Softw., 23, 1338–1342, https://doi.org/10.1016/j.envsoft.2008.03.004, 2008.

Zender, C. S.: NCO User Guide, available at: http://nco.sf.net/nco.pdf, last access: 13 September 2016a.

Zender, C. S.: netCDF Operators (NCO), version 4.6.1, Zenodo, https://doi.org/10.5281/zenodo.61341, 2016b.

Zender, C. S. and Mangalam, H. J.: Scaling properties of common statistical operators for gridded datasets, Int. J. High Perform. C., 21, 458–498, https://doi.org/10.1177/1094342007083802, 2007.

Zender, C. S., Bian, H., and Newman, D.: Mineral Dust Entrainment And Deposition (DEAD) model: Description and 1990s dust climatology, J. Geophys. Res., 108, 4416, https://doi.org/10.1029/2002JD002775, 2003.

Ziv, J. and Lempel, A.: A universal algorithm for sequential data compression, IEEE T. Inform. Theory, 23, 337–343, 1977.

Ziv, J. and Lempel, A.: Compression of individual sequences via variable-rate coding, IEEE T. Inform. Theory, 24, 530–536, https://doi.org/10.1109/TIT.1978.1055934, 1978.