Tolerancia a fallos en MPI con Checkpointing

893 views
774 views

Published on

Enero 2011

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
893
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Tolerancia a fallos en MPI con Checkpointing

  1. 1. Técnicas bloqueantes y no bloqueantes de puntos de control coordinados en protocolos MPI tolerantes a fallos Unai Lopez Novoa
  2. 2. Introducción: MPI Especificación de librería de paso de mensajes Implementaciones : MPICH (esta presentación) , OpenMPI (alternativa) Problema : Fallo y parada sin recuperación Solución : checkpoints (puntos de control) coordinados
  3. 3. Checkpoints coordinados Lamport y Chandy en 1985 Objetivo : estado global coherente 2 Enfoques: No bloqueante: salvado de contexto concurrente a ejecución Bloqueante : pausa de ejecución durante salvado Disparador : señal “marker” (marcador)
  4. 4. Protocolos: VCL (I) Enfoque NO bloqueante Proceso subdividido en 2: - Computación ( MPI ) - Comunicación ( Daemon ) Procesos especiales: - Checkpoint scheduler - Checkpoint servers - Dispatcher
  5. 5. Protocolos: VLC (y II)
  6. 6. Protocolos: PCL (I) Enfoque bloqueante No comunicación durante checkpooint == No guardado ni reenvió de mensajes Iniciador : proceso MPI rango 0
  7. 7. Protocolos: PCL (y II)
  8. 8. Implementación: VCL Guardado de estado por proceso: “ fork ” de sí mismo Nuevo socket hacia servidor de checkpoint Transferencia de la imagen Fallo == Cierre inesperado de socket Dispatcher  Gestión de fallos Scheduler  Iniciador de señales marcador
  9. 9. Implementación: PCL Canal Nemesis para MPICH ( FIFO ) Facilidad para bloqueo de mensajes Mismo sistema de guardado de imagen que en VCL F ault T olerant P rocess M anager Proceso para gestión de fallos Sustituye al Process Manager de MPICH Adjunto a MPD (MPI Daemon)
  10. 10. Rendimiento (I) Red Gigabit: 9 servidores Checkpoint Rendimiento contra freq. de checkpoint PCL (Bloqueante) mayor necesidad de comunicación, peor rendimiento VCL (No Bloqueante) menos comunicación, mejor rendimiento
  11. 11. Rendimiento (y II) Red Myri2000 Nº de checkpoints: Afecta a PCL No afecta a VCL Cluster en internet Sólo PCL Mejores tiempos con Mayor espera entre checkpoints Menor numero de checkpoints
  12. 12. Conclusiones Enfoque bloqueante (PCL): Más simple de implementar Buenos resultados en redes de alta velocidad Excesivas latencias en Clusters y Grids Enfoque NO bloqueante (VCL): Requiere mayor coordinación Buenos resultados en Clusters y Grids Mas relevante frecuencia de checkpoint que nº de nodos
  13. 13. Referencia Blocking vs. non-blocking coordinated checkpointing for large-scale fault tolerant MPI Protocols Darius Buntinas, Camille Coti, Thomas Herault, Pierre Lemarinier, Laurence Pilarda , Ala Rezmeritab, Eric Rodriguez & Franck Cappello Future Generation Computer Systems 24 (2008)
  14. 14. Técnicas bloqueantes y no bloqueantes de puntos de control coordinados en protocolos MPI tolerantes a fallos Unai Lopez Novoa

×