National audienceDans cet article, nous nous intéressons à un problème d'apprentissage actif consistant à déduire le modèle de transition d'un Processus de Décision Markovien (MDP) en agissant et en observant les transitions résultantes. Ceci est particulièrement utile lorsque la fonction de récompense n'est pas initialement accessible. Notre proposition consiste à formuler ce problème d'apprentissage actif en un problème de maximisation d'utilité dans le cadre de l'apprentissage par renforcement bayésien avec des récompenses dépendant de l'état de croyance. Après avoir présenté trois critères de performance possibles, nous en dérivons des récompenses dépendant de l'état de croyance que l'on pourra utiliser dans le processus de prise de déc...
National audienceLa résolution parallèle efficace de simulations numériques dont les coûts de calcul...
International audiencePour limiter les besoins en climatisation nous prop osons d'augmenter l'inerti...
peer reviewedCet article décrit l'algorithme BOP (de l'anglais ``Bayesian Optimistic Planning''), un...
International audiencePour beaucoup d'applications réelles nécessitant une prise de déci-sion séquen...
National audienceRésoudre optimalement des processus décisionnels de Markov partiellement observable...
National audienceLes difficultés rencontrées dans les problèmes de décision séquentielle dans l'ince...
Patrouiller implique habituellement une équipe d'agents dont le but consiste à visiter aussi fréquem...
L'apprentissage par renforcement est une approche d'apprentissage automatique permettant de développ...
National audienceCet article présente une méthode de génération assistée de tests. Elle applique des...
Les travaux présentés concernent trois thématiques connexes~: Interprétation et étude probabiliste d...
Colloque avec actes et comité de lecture. nationale.National audienceL'activité de veille, au sein d...
La réduction de masse est une des solutions techniques adoptées dans l'industrie automobile, permett...
National audienceCet article propose une démarche d'évaluation incrémentale pour évaluer un modèle c...
National audienceLa recherche sur les systèmes distribués a quelques caractéristiques qui la rende i...
Deux caractéristiques importantes de l’investissement en exploration ou production pétrolière sont ...
National audienceLa résolution parallèle efficace de simulations numériques dont les coûts de calcul...
International audiencePour limiter les besoins en climatisation nous prop osons d'augmenter l'inerti...
peer reviewedCet article décrit l'algorithme BOP (de l'anglais ``Bayesian Optimistic Planning''), un...
International audiencePour beaucoup d'applications réelles nécessitant une prise de déci-sion séquen...
National audienceRésoudre optimalement des processus décisionnels de Markov partiellement observable...
National audienceLes difficultés rencontrées dans les problèmes de décision séquentielle dans l'ince...
Patrouiller implique habituellement une équipe d'agents dont le but consiste à visiter aussi fréquem...
L'apprentissage par renforcement est une approche d'apprentissage automatique permettant de développ...
National audienceCet article présente une méthode de génération assistée de tests. Elle applique des...
Les travaux présentés concernent trois thématiques connexes~: Interprétation et étude probabiliste d...
Colloque avec actes et comité de lecture. nationale.National audienceL'activité de veille, au sein d...
La réduction de masse est une des solutions techniques adoptées dans l'industrie automobile, permett...
National audienceCet article propose une démarche d'évaluation incrémentale pour évaluer un modèle c...
National audienceLa recherche sur les systèmes distribués a quelques caractéristiques qui la rende i...
Deux caractéristiques importantes de l’investissement en exploration ou production pétrolière sont ...
National audienceLa résolution parallèle efficace de simulations numériques dont les coûts de calcul...
International audiencePour limiter les besoins en climatisation nous prop osons d'augmenter l'inerti...
peer reviewedCet article décrit l'algorithme BOP (de l'anglais ``Bayesian Optimistic Planning''), un...