Recuperación de Errores en Arquitecturas de Multiprocesadores con Memoria Compartida
Los principios básicos de un sistema tolerante a fallas es bien conocido y consta de los siguientes pasos:
Para poder detectar la falla en algún procesador, existen varios métodos. Algunos son:
En el caso de producirse un error, el estado de la memoria compartida, en la mayoríade los casos, no es coherente con los datos contenidos en la cache interna del procesador que ha fallado y seguramente pueden existir otras incoherencias en los procesadores que no han fallado.
Una de los métodos de recuperación frente a falla es el "backward error recovery". Este es el mecanismo utilizado por el RSM, el cual consiste en:
Para permitir la tolerancia a fallas de CPU, en general, es suficiente almacenar sólo un punto de recuperación.