Dans ce travail de thèse, nous abordons les problèmes liés au partitionnement et à la distribution des grands volumes d’entrepôts de données distribués avec Mapreduce. Dans un premier temps, nous abordons le problème de la distribution des données. Dans ce cas, nous proposons une stratégie d’optimisation du placement des données, basée sur le principe de la colocalisation. L’objectif est d’optimiser les traitements lors de l’exécution des requêtes d’analyse à travers la définition d’un schéma de distribution intentionnelle des données permettant de réduire la quantité des données transférées entre les noeuds lors des traitements, plus précisément lors phase de tri (shuffle). Nous proposons dans un second temps une nouvelle démarche pour amé...
De nombreux systèmes distribués sont confrontés au problème du déséquilibre de charge entre machines...
Les systèmes de stockage distribués sont massivement utilisés dans le contexte actuel des grandes ma...
Distributed data store are massively used in the actual context of Big Data. In addition to provide ...
Les applications data-intensive sont largement utilisées au sein de domaines diverses dans le but d'...
Au cours des dernières années, le volume des données qui sont capturées et générées a explosé. Les p...
Along with the development of hardware and software, more and more data is generated at a rate much ...
During the last years, the volume of data that is captured and generated has exploded. Advances in c...
Des quantités de données colossalles sont générées quotidiennement. Traiter de grands volumes de don...
International audienceA large part of today's most popular applications are data-intensive; the data...
MapReduce is a well-know framework for distributing data-processingcomputations onto parallel cluste...
Running multiple instances of the MapReduce framework concurrently in a multicluster system or datac...
The typical cloud big data systems are the workflow-based including MapReduce which has emerged as t...
MapReduce is a framework for processing and managing large-scale datasets in a distributed cluster, ...
De nombreux systèmes distribués sont confrontés au problème du déséquilibre de charge entre machines...
Les systèmes de stockage distribués sont massivement utilisés dans le contexte actuel des grandes ma...
Distributed data store are massively used in the actual context of Big Data. In addition to provide ...
Les applications data-intensive sont largement utilisées au sein de domaines diverses dans le but d'...
Au cours des dernières années, le volume des données qui sont capturées et générées a explosé. Les p...
Along with the development of hardware and software, more and more data is generated at a rate much ...
During the last years, the volume of data that is captured and generated has exploded. Advances in c...
Des quantités de données colossalles sont générées quotidiennement. Traiter de grands volumes de don...
International audienceA large part of today's most popular applications are data-intensive; the data...
MapReduce is a well-know framework for distributing data-processingcomputations onto parallel cluste...
Running multiple instances of the MapReduce framework concurrently in a multicluster system or datac...
The typical cloud big data systems are the workflow-based including MapReduce which has emerged as t...
MapReduce is a framework for processing and managing large-scale datasets in a distributed cluster, ...
De nombreux systèmes distribués sont confrontés au problème du déséquilibre de charge entre machines...
Les systèmes de stockage distribués sont massivement utilisés dans le contexte actuel des grandes ma...
Distributed data store are massively used in the actual context of Big Data. In addition to provide ...