Tolérance aux pannes dans des environnements de calcul parallèle et distribué (optimisation des stratégies de sauvegarde/reprise et ordonnancement)

  • BOUGUERRA, Mohamed slim
  • TRYSTRAM, Denis
  • GAUTIER, Thierry
Open PDF
Publication date
January 2012

Abstract

Le passage de l'échelle des nouvelles plates-formes de calcul parallèle et distribué soulève de nombreux défis scientifiques. À terme, il est envisageable de voir apparaître des applications composées d'un milliard de processus exécutés sur des systèmes à un million de coeurs. Cette augmentation fulgurante du nombre de processeurs pose un défi de résilience incontournable, puisque ces applications devraient faire face à plusieurs pannes par jours. Pour assurer une bonne exécution dans ce contexte hautement perturbé par des interruptions, de nombreuses techniques de tolérance aux pannes telle que l'approche de sauvegarde et reprise (checkpoint) ont été imaginées et étudiées. Cependant, l'intégration de ces approches de tolérance aux pannes d...

Extracted data

We use cookies to provide a better user experience.