Understanding failures through the lifetime of a top-level supercomputer

Rojas, Elvis; Meneses, Esteban; Jones, Terry; Maxwell, Don

dc.contributor.author	Rojas, Elvis
dc.contributor.author	Meneses, Esteban
dc.contributor.author	Jones, Terry
dc.contributor.author	Maxwell, Don
dc.date.accessioned	2021-09-30T19:41:34Z
dc.date.available	2021-09-30T19:41:34Z
dc.date.issued	2021-04-20
dc.identifier.issn	0743-7315
dc.identifier.uri	http://hdl.handle.net/11056/21418
dc.description.abstract	High performance computing systems are required to solve grand challenges in many scientific disciplines. These systems assemble many components to be powerful enough for solving extremely complex problems. An inherent consequence is the intricacy of the interaction of all those components, especially when failures come into the picture. It is crucial to develop an understanding of how these systems fail to design reliable supercomputing platforms in the future. This paper presents the results on studying multi-year failure and workload records of a powerful supercomputer that topped the world rankings. We provide a thorough analysis of the data and characterize the reliability of the system through several dimensions: failure classification, failure-rate modelling, and interplay between failures and workload. The results shed some light on the dynamics of top-level supercomputers and sensitive areas ripe for improvement.	es_ES
dc.description.abstract	Se requieren sistemas informáticos de alto rendimiento para resolver grandes desafíos en muchas disciplinas científicas. Estos sistemas ensamblan muchos componentes para que sean lo suficientemente potentes como para resolver problemas extremadamente complejos. Una consecuencia inherente es la complejidad de la interacción de todos esos componentes, especialmente cuando las fallas entran en escena. Es crucial desarrollar una comprensión de cómo estos sistemas fallan en diseñar plataformas de supercomputación confiables en el futuro. Este artículo presenta los resultados del estudio de los registros de carga de trabajo y fallas de varios años de una poderosa supercomputadora que encabezó la clasificación mundial. Proporcionamos un análisis exhaustivo de los datos y caracterizamos la confiabilidad del sistema a través de varias dimensiones: clasificación de fallas, modelado de la tasa de fallas e interacción entre fallas y carga de trabajo. Los resultados arrojan algo de luz sobre la dinámica de las supercomputadoras de alto nivel y las áreas sensibles listas para mejorar.	es_ES
dc.description.sponsorship	Universidad Nacional, Costa Rica	es_ES
dc.description.sponsorship	Instituto Tecnológico de Costa Rica	es_ES
dc.description.sponsorship	Centro Nacional de Alta Tecnología, Costa Rica	es_ES
dc.description.sponsorship	Laboratorio Nacional Oak Ridge, Estados Unidos	es_ES
dc.language.iso	eng	es_ES
dc.publisher	Academic Press Inc.	es_ES
dc.rights	Acceso embargado	es_ES
dc.source	Journal of Parallel and Distributed Computing vol.154 27-41 2021	es_ES
dc.subject	FAULT TOLERANCE	es_ES
dc.subject	RESILIENCE	es_ES
dc.subject	FAILURE ANALYSIS	es_ES
dc.subject	HIGH PERFORMANCE COMPUTING	es_ES
dc.title	Understanding failures through the lifetime of a top-level supercomputer	es_ES
dc.type	http://purl.org/coar/resource_type/c_6501	es_ES
dc.description.procedence	Escuela de Informática	es_ES
dc.identifier.doi	10.1016/j.jpdc.2021.04.001

Files in this item

Name:: 1-s2.0-S0743731521000782-main.pdf
Size:: 3.851Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Artículos científicos [75]
Artículos científicos [73]

Show simple item record