MapReduce

Communications of the ACM - Tập 51 Số 1 - Trang 107-113 - 2008
Jay B. Dean1, Sanjay Ghemawat1
1Google, Mountain View, CA

Tóm tắt

MapReduce là một mô hình lập trình và một cách triển khai liên quan để xử lý và sinh ra các tập dữ liệu lớn, phù hợp với nhiều nhiệm vụ trong thực tế. Người dùng xác định phép tính theo các hàm mapreduce, và hệ thống thực thi nền tảng tự động phân tán phép tính trên các cụm máy lớn, xử lý các sự cố máy móc, và lên lịch giao tiếp giữa các máy để sử dụng hiệu quả mạng và ổ đĩa. Các lập trình viên thấy rằng hệ thống này rất dễ sử dụng: hơn mười nghìn chương trình MapReduce khác nhau đã được triển khai nội bộ tại Google trong bốn năm qua, và trung bình một trăm nghìn công việc MapReduce được thực hiện trên các cụm của Google mỗi ngày, xử lý tổng cộng hơn hai mươi petabyte dữ liệu mỗi ngày.

Từ khóa


Tài liệu tham khảo

Hadoop: Open source implementation of MapReduce. http://lucene. apache.org/hadoop/. Hadoop: Open source implementation of MapReduce. http://lucene. apache.org/hadoop/.

The Phoenix system for MapReduce programming. http://csl.stanford. edu/~christos/sw/phoenix/. The Phoenix system for MapReduce programming. http://csl.stanford. edu/~christos/sw/phoenix/.

10.1145/253260.253322

10.1109/MM.2003.1196112

Bent , J. , Thain , D. , Arpaci-Dusseau , A. C. , Arpaci-Dusseau , R. H. , and Livny , M . 2004. Explicit control in a batch-aware distributed file system . In Proceedings of the 1st USENIX Symposium on Networked Systems Design and Implementation (NSDI). Bent, J., Thain, D., Arpaci-Dusseau, A. C., Arpaci-Dusseau, R. H., and Livny, M. 2004. Explicit control in a batch-aware distributed file system. In Proceedings of the 1st USENIX Symposium on Networked Systems Design and Implementation (NSDI).

10.1109/12.42122

Chu , C.-T. , Kim , S. K. , Lin , Y. A. , Yu , Y. , Bradski , G. , Ng , A. , and Olukotun , K . 2006. Map-Reduce for machine learning on multicore . In Proceedings of Neural Information Processing Systems Conference (NIPS) . Vancouver, Canada. Chu, C.-T., Kim, S. K., Lin, Y. A., Yu, Y., Bradski, G., Ng, A., and Olukotun, K. 2006. Map-Reduce for machine learning on multicore. In Proceedings of Neural Information Processing Systems Conference (NIPS). Vancouver, Canada.

Dean , J. and Ghemawat , S. 2004 . MapReduce: Simplified data processing on large clusters. In Proceedings of Operating Systems Design and Implementation (OSDI). San Francisco , CA. 137 - 150 . Dean, J. and Ghemawat, S. 2004. MapReduce: Simplified data processing on large clusters. In Proceedings of Operating Systems Design and Implementation (OSDI). San Francisco, CA. 137-150.

10.1145/268998.266662

10.1145/945445.945450

Gorlatch , S. 1996. Systematic efficient parallelization of scan and other list homomorphisms . In L. Bouge, P. Fraigniaud, A. Mignotte, and Y. Robert, Eds. Euro-Par'96. Parallel Processing , Lecture Notes in Computer Science , vol. 1124 . Springer-Verlag . 401-408 Gorlatch, S. 1996. Systematic efficient parallelization of scan and other list homomorphisms. In L. Bouge, P. Fraigniaud, A. Mignotte, and Y. Robert, Eds. Euro-Par'96. Parallel Processing, Lecture Notes in Computer Science, vol. 1124. Springer-Verlag. 401-408

Gray J. Sort benchmark home page. http://research.microsoft.com/barc/SortBenchmark/. Gray J. Sort benchmark home page. http://research.microsoft.com/barc/SortBenchmark/.

Huston , L. , Sukthankar , R. , Wickremesinghe , R. , Satyanarayanan , M. , Ganger , G. R. , Riedel , E. , and Ailamaki , A . 2004. Diamond: A storage architecture for early discard in interactive search . In Proceedings of the 2004 USENIX File and Storage Technologies FAST Conference. Huston, L., Sukthankar, R., Wickremesinghe, R., Satyanarayanan, M., Ganger, G. R., Riedel, E., and Ailamaki, A. 2004. Diamond: A storage architecture for early discard in interactive search. In Proceedings of the 2004 USENIX File and Storage Technologies FAST Conference.

10.1145/322217.322232

10.1145/62044.62050

10.1109/HPCA.2007.346181

10.1109/2.928624