Avec l'évolution des machines parallèles, le besoin en protocole de tolérance aux fautes devient de plus en plus important. Les protocoles de tolérance aux fautes existants ne sont pas adaptés à ces architectures car soit ils forcent un redémarrage global (protocoles de sauvegarde de points de reprise coordonnés) soit ils forcent l'enregistrement de tous les messages (protocoles à enregistrement de messages). Nous avons étudié les caractéristiques des protocoles existants. Dans un premier temps, nous avons étudié le déterminisme des applications, étant donné que les protocoles existants supposent des exécutions non déterministes ou déterministes par morceaux. Dans notre étude, nous nous sommes intéressés au modèle par échange de messages, e...
The high failure rate expected for future supercomputers requires the design of new fault tolerant s...
International audience— As reported by many recent studies, the mean time between failures of future...
Le passage de l'échelle des nouvelles plates-formes de calcul parallèle et distribué soulève de nomb...
Avec l'évolution des machines parallèles, le besoin en protocole de tolérance aux fautes devient de ...
International audienceHigh performance computing platforms such as Clusters, Grid and Desktop Grids ...
L'augmentation du nombre de composants des architectures hautes performances fait surgir des problèm...
International audienceReplication has recently gained attention in the context of fault tolerance fo...
With the increasing number of processors in modern HPC(High Performance Computing) systems (65536 in...
With increasing numbers of processors on current machi-nes, the probability for node or link failure...
International audienceFault tolerance is becoming a major concern in HPC systems. The two traditiona...
This thesis focuses on fault-tolerance for MPI codes on computational clusters. When an application ...
The high failure rate expected for future supercomputers requires the design of new fault tolerant s...
International audience— As reported by many recent studies, the mean time between failures of future...
Le passage de l'échelle des nouvelles plates-formes de calcul parallèle et distribué soulève de nomb...
Avec l'évolution des machines parallèles, le besoin en protocole de tolérance aux fautes devient de ...
International audienceHigh performance computing platforms such as Clusters, Grid and Desktop Grids ...
L'augmentation du nombre de composants des architectures hautes performances fait surgir des problèm...
International audienceReplication has recently gained attention in the context of fault tolerance fo...
With the increasing number of processors in modern HPC(High Performance Computing) systems (65536 in...
With increasing numbers of processors on current machi-nes, the probability for node or link failure...
International audienceFault tolerance is becoming a major concern in HPC systems. The two traditiona...
This thesis focuses on fault-tolerance for MPI codes on computational clusters. When an application ...
The high failure rate expected for future supercomputers requires the design of new fault tolerant s...
International audience— As reported by many recent studies, the mean time between failures of future...
Le passage de l'échelle des nouvelles plates-formes de calcul parallèle et distribué soulève de nomb...