National audienceLa résolution de problèmes à états et actions continus par l'optimisation de politiques paramétriques est un sujet d'intérêt récent en apprentissage par renforcement. L'algorithme PI^2 est un exemple de cette approche, qui bénéficie de fondements mathématiques solides tirés de la commande stochastique optimale et des outils de la théorie de l'estimation statistique. Dans cet article, nous considérons PI^2 en tant que membre de la famille plus vaste des méthodes qui partagent le concept de moyenne pondérée par les probabilités pour mettre à jour itérativement des paramètres afin d'optimiser une fonction de coût. Nous comparons PI^2 à d'autres membres de la même famille - la " méthode d'entropie croisée " et CMA-ES - au nivea...
Les robots sous-actionnés entraînés à l'aide de câbles permettent de combiner les avantages du sous-...
Les Processus Décisionnels Markoviens Partiellement Observables sont actuellement un sujet d'intérêt...
International audienceNous étudions la tâche de l'approche entre deux agents mobiles ayant la même p...
National audienceLa résolution de problèmes à états et actions continus par l'optimisation de politi...
National audienceEn apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de...
National audienceUn nouvel algorithme d'apprentissage par renforcement, traitant à la fois des espac...
La réduction de masse est une des solutions techniques adoptées dans l'industrie automobile, permett...
National audienceL'adaptation conservatrice est une approche de l'adaptation en raisonnement à parti...
International audienceL'apprentissage par renforcement profond a connu un succès remarquable au cour...
National audienceLa résolution parallèle efficace de simulations numériques dont les coûts de calcul...
International audiencePour beaucoup d'applications réelles nécessitant une prise de déci-sion séquen...
Ce travail se compose de deux parties relevant d'applications industrielles différentes. La premiè...
National audienceNous nous intéressons au problème consistant à trouver une politique jointe optimal...
Colloque avec actes et comité de lecture. nationale.National audienceL'activité de veille, au sein d...
National audienceL'adaptation est une étape du raisonnement à partir de cas qui consiste à modifier ...
Les robots sous-actionnés entraînés à l'aide de câbles permettent de combiner les avantages du sous-...
Les Processus Décisionnels Markoviens Partiellement Observables sont actuellement un sujet d'intérêt...
International audienceNous étudions la tâche de l'approche entre deux agents mobiles ayant la même p...
National audienceLa résolution de problèmes à états et actions continus par l'optimisation de politi...
National audienceEn apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de...
National audienceUn nouvel algorithme d'apprentissage par renforcement, traitant à la fois des espac...
La réduction de masse est une des solutions techniques adoptées dans l'industrie automobile, permett...
National audienceL'adaptation conservatrice est une approche de l'adaptation en raisonnement à parti...
International audienceL'apprentissage par renforcement profond a connu un succès remarquable au cour...
National audienceLa résolution parallèle efficace de simulations numériques dont les coûts de calcul...
International audiencePour beaucoup d'applications réelles nécessitant une prise de déci-sion séquen...
Ce travail se compose de deux parties relevant d'applications industrielles différentes. La premiè...
National audienceNous nous intéressons au problème consistant à trouver une politique jointe optimal...
Colloque avec actes et comité de lecture. nationale.National audienceL'activité de veille, au sein d...
National audienceL'adaptation est une étape du raisonnement à partir de cas qui consiste à modifier ...
Les robots sous-actionnés entraînés à l'aide de câbles permettent de combiner les avantages du sous-...
Les Processus Décisionnels Markoviens Partiellement Observables sont actuellement un sujet d'intérêt...
International audienceNous étudions la tâche de l'approche entre deux agents mobiles ayant la même p...