Khả năng Tự Thích Ứng với Lỗi trong Hệ Thống Đa/Nhiều Nhân

Cristiana Bolchini1, Matteo Carminati1, Antonio Miele1
1Dipartimento di Elettronica, Informatica e Bioingegneria, Politecnico di Milano, Milano, Italy

Tóm tắt

Bài báo này trình bày một phương pháp mới để thiết kế các hệ thống đa/nhiều nhân với mức độ tin cậy tự thích ứng. Phương pháp này định nghĩa một lớp ở cấp độ hệ điều hành nhằm đạt được các thuộc tính phát hiện/lưu giữ/chẩn đoán lỗi thông qua các cơ chế sao chép và thực thi lại các luồng. Lớp này áp dụng cơ chế tăng cường thuận tiện nhất để đạt được sự cân bằng mong muốn giữa độ tin cậy và hiệu suất bằng cách thích nghi với các thay đổi của kịch bản làm việc trong thời gian thực. Chiến lược đề xuất đã được áp dụng trong một loạt các phiên thực nghiệm xem xét một ứng dụng song song trong thế giới thực, nhằm đánh giá lợi ích của nó trên hệ thống cuối cùng liên quan đến các chiến lược khác nhau được chọn vào thời điểm thiết kế.

Từ khóa

#đa nhân #nhiều nhân #hệ thống tin cậy tự thích ứng #phát hiện lỗi #khả năng chịu lỗi #cơ chế sao chép luồng

Tài liệu tham khảo

Accelera Systems Initiative: http://www.accellera.org. Accessed 27 Mar 2013 Aggarwal N, Ranganathan P, Jouppi NP, Smith JE (2007) Configurable isolation: building high availability systems with commodity multi-core processors. In: Proceeding international symposium on computer architecture, pp 470–481 Auslander M, Dasilva D, Edelsohn D, Krieger O, Ostrowski M, Rosenburg B, Wisniewski RW, Xenidis J (2002) K42 overview. Tech. rep., IBM T. J. Watson Research Center Baumann A, Barham P, Dagand PE, Harris T, Isaacs R, Peter S, Roscoe T, Schüpbach A, Singhania A (2009) The multikernel: a new OS architecture for scalable multicore systems. In: Proceeding ACM symposium on operating systems principles (SOSP), pp 29–44, New York Bolchini C, Miele A, Sciuto D (2012) An adaptive approach for online fault management in many-core architectures. In: Proceeding conference on design, automation and test in Europe (DATE), pp 1429–1432 Chen Z, Yang M, Francia G, Dongarra J (2007) Self adaptive application level fault tolerance for parallel and distributed computing. In: Proceeding international parallel and distributed processing symposium (IPDPS), pp 1–8 ECSS: Methods for the calculation of radiation received and its effects andapolicyfordesignmargins. Tech. Rep. ECSS-E-ST-10-12C European Cooperation for Space Standardization (2008) Gizopoulos D, Psarakis M, Adve S, Ramachandran P, Hari S, Sorin D, Meixner A, Biswas A, Vera X (2011) Architectures for online error detection and recovery in multicore processors. In: Proceeding conference on design, automation and test in europe (DATE), pp 533–538 Horn P (2001) Autonomic Computing: IBM’s Perspective on the State of Information Technology Huang J, Blech J, Raabe A, Buckl C, Knoll A (2011) Analysis and optimization of fault-tolerant task scheduling on multiprocessor embedded systems. In: Proceeding international conference Hw/Sw codesign and system synthesis, pp 247–256 International Technology Roadmap for Semiconductors–Emerging Research Devices Section (2010) http://public.itrs.net/. Accessed 27 Mar 2013 Kephart JO, Chess DM (2003) The vision of autonomic computing. IEEE Comput 36:41–50 Kouadri A, Heron O, Montagne R (2011) A lightweight API for an adaptive software fault tolerance using POSIX-thread replication. In: Proceeding international conference on architecture of computing systems (ARCS), pp 16–19 LaFrieda C, Ipek E, Martinez JF, Manohar R (2007) Utilizing dynamically coupled cores to form a resilient chip multiprocessor. In: Proceeding conference dependable systems and networks (DSN), pp 317–326 Lattuada M, Pilato C, Tumeo A, Ferrandi F (2009) Performance modeling of parallel applications on MPSoCs. In: Proceeding 11th international conference on system-on-chip (SoC), pp 64–67 Meloni P, Tuveri G, Raffo L, Cannella E, Stefanov T, Derin O, Fiorin L, Sami M (2012) System adaptivity and fault-tolerance in NoC-based MPSoCs: the MADNESS project approach. In: Proceeding EUROMICRO conference digital system design (DSD), pp 517–524 Mukherjee S, Kontz M, Reinhardt S (2002) Detailed design and evaluation of redundant multi-threading alternatives. In: Proc Intl Symp Comput Architecture. 99–110 Normand E (1996) Single event upset at ground level. IEEE Trans Nuclear Sci 43(6):2742–2750 Politecnico di Milano: ReSP web site. http://code.google.com/p/resp-sim/. Accessed 27 Mar 2013 Salehie M, Tahvildari L (2009) Self-adaptive software: Landscape and research challenges. ACM Trans Autonomous and Adaptive Systems 4:14:1–14:42 STMicroelectronics and CEA (2010) Platform 2012: A many-core programmable accelerator for ultra-efficient embedded computing in nanometer technology. In: Research workshop on STMicroelectronics Platform 2012 Teraflux (2011) Definition of ISA extensions, custom devices and external COTSon API extensions. In: Teraflux: Exploiting dataflow parallelism in Tera-device computing The OpenMP API specification for parallel programming (2011). http://openmp.org/wp/. Accessed 27 Mar 2013 Various Authors (2011) The MIT Angstrom Project: Universal Technologies for Exascale Computing. http://projects.csail.mit.edu/angstrom/. Accessed 27 Mar 2013 Weis S, Garbade A, Wolf J, Fechner B, Mendelson A, Giorgi R, Ungerer T (2011) A fault detection and recovery architecture for a teradevice dataflow system. In: Workshop on data-flow execution models for extreme scale computing (DFM), pp 38–44 Wells PM, Chakraborty K, Sohi GS (2009) Mixed-mode multicore reliability. In: Proceeding international conference architectural support for programming languages and operating systems, pp 169–180 Wirthlin M, Johnson E, Rollins N, Caffrey M, Graham P (2003) The reliability of FPGA circuit designs in the presence of radiation induced configuration upsets. In: Proceeding symposium field-programmable custom computing machines (FCCM), pp 133–142