Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Thuật Toán Rừng Ngẫu Nhiên Thực Sự Không Gian cho Phân Tích và Mô Hình Dữ Liệu Địa Khoa Học
Tóm tắt
Khai thác dữ liệu không gian giúp tìm ra các mẫu ẩn nhưng có thể cung cấp thông tin từ các dữ liệu địa khoa học lớn và có kích thước cao. Các phương pháp học không gian thông thường thường xem xét các quan sát dựa trên mối quan hệ của chúng trong không gian đặc trưng, điều này có nghĩa là chúng không thể xem xét các mối quan hệ không gian giữa các biến khu vực. Nghiên cứu này giới thiệu một kỹ thuật rừng ngẫu nhiên không gian mới dựa trên thống kê không gian bậc cao cho phân tích và mô hình dữ liệu không gian. Khác với thuật toán rừng ngẫu nhiên cổ điển sử dụng thông tin quang phổ dạng pixel như các yếu tố dự đoán, thuật toán rừng ngẫu nhiên không gian được đề xuất sử dụng thông tin không gian-quang phổ cục bộ (tức là, các mẫu không gian đã được vector hóa) để học tính không đồng nhất nội tại, sự phụ thuộc không gian và các mẫu không gian phức tạp. Các thuật toán cho việc học có giám sát (tức là, hồi quy và phân loại) và học không có giám sát (tức là, giảm chiều và phân cụm) được trình bày. Các phương pháp để xử lý dữ liệu lớn, dữ liệu đa độ phân giải và các giá trị thiếu cũng được thảo luận. Hiệu suất vượt trội và tính hữu ích của thuật toán được đề xuất so với phương pháp rừng ngẫu nhiên cổ điển được minh họa qua các trường hợp tổng hợp và thực tế, nơi các biến địa vật lý cảm biến từ xa trong Tỉnh Khoáng Sản Tây Bắc Queensland, Australia, được sử dụng làm dữ liệu không gian đầu vào cho việc lập bản đồ địa chất, dự đoán địa hóa học và phân tích khám phá quy trình.
Từ khóa
#Khai thác dữ liệu không gian #Rừng ngẫu nhiên không gian #Phân tích dữ liệu địa khoa học #Thống kê không gian bậc cao #Học có giám sát #Học không có giám sát #Dữ liệu lớnTài liệu tham khảo
Bergen KJ, Johnson PA, de Hoop MV, Beroza GC (2019) Machine learning for data-driven discovery in solid earth geoscience. Science. https://doi.org/10.1126/science.aau0323
Breiman L (2001) Random forests. Mach Learn 45:5–32. https://doi.org/10.1023/A:1010933404324
Breiman L, Friedman J, Stone CJ, Olshen RA (1984) Classification and regression trees. CRC Press, New York
Cant R (2014) Queensland gravity grid. Accessed 9 Aug 2018
Cliff A, Ord J (1973) Spatial autocorrelation. Pion, London
Gallant JC, Dowling TI, Read AM, Wilson N, Tickle P, Inskeep C (2011) 1 second SRTM derived digital elevation models user guide. Geoscience Australia. www.ga.gov.au/topographic-mapping/digital-elevation-data.html
Georganos S, Grippa T, Gadiaga AN, Linard C, Lennert M, Vanhuysse S, Mboga N, Wolff E, Kalogirou S (2019) Geographical random forests: a spatial extension of the random forest algorithm to address spatial heterogeneity in remote sensing and population modelling. Geocarto Int. https://doi.org/10.1080/10106049.2019.1595177
Goovaerts P (1997) Geostatistics for natural resources evaluation. Oxford University Press, New York
Greenwood M (2018) Queensland merged RTP, Queensland merged magnetic 1VD. Accessed 9 Aug 2018
Hengl T, Heuvelink GBM, Kempen B, Leenaars JGB, Walsh MG, Shepherd KD, Sila A, MacMillan RA, de Jesus J, Tamene L, Tondoh JE (2015) Mapping soil properties of Africa at 250 m resolution: random forests significantly improve current predictions. PLoS ONE 10:1–26. https://doi.org/10.1371/journal.pone.0125814
Hengl T, Nussbaum M, Wright MN, Heuvelink GBM, Gräler B (2018) Random forest as a generic framework for predictive modeling of spatial and spatio-temporal variables. PeerJ 6:e5518. https://doi.org/10.7717/peerj.5518
Ishwaran H, Kogalur UB, Blackstone EH, Lauer MS (2008) Random survival forests. Ann Appl Stat 2:841–860. https://doi.org/10.1214/08-AOAS169
Karpatne A, Ebert-Uphoff I, Ravela S, Babaie HA, Kumar V (2019) Machine learning for the geosciences: challenges and opportunities. IEEE Trans Knowl Data Eng 31:1544–1554. https://doi.org/10.1109/TKDE.2018.2861006
Kassambara A (2017) Practical guide to cluster analysis in R: unsupervised machine learning, 1st edn. Create Space, North Charleston
Kaufman L, Rousseeuw PJ (eds) (1990) Finding groups in data. Wiley, Hoboken
Kuhn M, Johnson K (2013) Applied predictive modeling. Springer, New York
Liu Y, Cao G, Zhao N, Mulligan K, Ye X (2018) Improve ground-level PM25 concentration mapping using a random forests-based geostatistical approach. Environ Pollut 235:272–282. https://doi.org/10.1016/j.envpol.2017.12.070
Mariethoz G, Caers J (2015) Multiple-point geostatistics: stochastic modeling with training images. Wiley, New York
Matheron G (1962) Traite´ de Ge´ostatistique Applique´e. Technip, Paris
Mead A (1992) Review of the development of multidimensional scaling methods. J R Stat Soc 41:27–39
Meyer H, Reudenbach C, Wöllauer S, Nauss T (2019) Importance of spatial predictor variable selection in machine learning applications—moving from data reproduction to spatial prediction. Ecol Modell 411:108815. https://doi.org/10.1016/j.ecolmodel.2019.108815
Minty BR, Franklin R, Milligan P, Richardson L, Wilford J (2010) Radiometric map of Australia (2nd Edition), scale 1:15 000 000, Geoscience Australia, Canberra
Mitchell B, Sheppard J (2019) Spatially biased random forests. In: FLAIRS conference
Probst P, Wright MN, Boulesteix A (2019) Hyperparameters and tuning strategies for random forest. Wiley Interdiscip Rev Data Min Knowl Discov. https://doi.org/10.1002/widm.1301
QDEX (2018) Department of natural resources queensland government and mines. QDEX Data. http://qdexdata.dnrm.qld.gov.au
Reichstein M, Camps-Valls G, Stevens B, Jung M, Denzler J, Carvalhais N, Prabhat (2019) Deep learning and process understanding for data-driven earth system science. Nature 566:195–204. https://doi.org/10.1038/s41586-019-0912-1
Rolnick D, Donti PL, Kaack LH, Kochanski K, Lacoste A, Sankaran K, Ross AS, Milojevic-Dupont N, Jaques N, Waldman-Brown A, Luccioni A, Maharaj T, Sherwin ED, Mukkavilli SK, Kording KP, Gomes C, Ng AY, Hassabis D, Platt JC, Creutzig F, Chayes J, Bengio Y (2019) Tackling climate change with machine learning. ArXiv Preprint, arXiv:1906.05433
Sellars SL (2018) “Grand challenges” in big data and the earth sciences. Bull Am Meteorol Soc 99:95–98. https://doi.org/10.1175/BAMS-D-17-0304.1
Shannon CE (1948) A mathematical theory of communication. Bell Syst Tech J 27:379–423. https://doi.org/10.1002/j.1538-7305.1948.tb01338.x
Talebi H, Mueller U, Tolosana-Delgado R, Grunsky EC, McKinley JM, de Caritat P (2019) Surficial and deep earth material prediction from geochemical compositions. Nat Resour Res 28:869–891. https://doi.org/10.1007/s11053-018-9423-2
Talebi H, Peeters LJM, Mueller U, Tolosana-Delgado R, van den Boogaart KG (2020) Towards geostatistical learning for the geosciences: a case study in improving the spatial awareness of spectral clustering. Math Geosci 52:1035–1048. https://doi.org/10.1007/s11004-020-09867-0
Woodcock CE, Strahler AH, Jupp DLB (1988) The use of variograms in remote sensing: II. Real digital images. Remote Sens Environ 25:349–379. https://doi.org/10.1016/0034-4257(88)90109-5