Recuperación de Errores en Arquitecturas de Multiprocesadores con Memoria Compartida


Los principios básicos de un sistema tolerante a fallas es bien conocido y consta de los siguientes pasos:

  • Detección de la falla.
  • Asegurarse que el sistema no seguirá fallando ?
  • Identificar el origen de la falla. (cuál de los procesadores es el que falló)
  • Reconfigurar los componentes del sistema.
  • Volver el sistema a un punto en el cual pueda retomar su operación normal.
  • Para poder detectar la falla en algún procesador, existen varios métodos. Algunos son:

     

    En el caso de producirse un error, el estado de la memoria compartida, en la mayoríade los casos, no es coherente con los datos contenidos en la cache interna del procesador que ha fallado y seguramente pueden existir otras incoherencias en los procesadores que no han fallado.

    Una de los métodos de recuperación frente a falla es el "backward error recovery". Este es el mecanismo utilizado por el RSM, el cual consiste en:

    1. Establecer un Punto de Recuparción.
    2. Volver el sistema al estado del "Punto de Recuperación".
    3. Hacer "commit" al punto de recuperación.

    Para permitir la tolerancia a fallas de CPU, en general, es suficiente almacenar sólo un punto de recuperación.