National audienceOn considère l'algorithme LSTD($\lambda$) (least-squares temporal-difference) avec traces d'éligibilité proposé par Boyan (2002). Cet algorithme renvoie, pour une politique fixée, une approximation linéaire de la fonction de valeur $v$ pour les processus décisionnels de Markov admettant un grand espace d'états. On se restreint dans cet article au cas des chaînes de Markov $\beta$-mélangeantes. Sous cette hypothèse, on estime la vitesse de convergence de cet algorithme pour n'importe quelle valeur de $\lambda\in(0,1)$. La borne d'erreur obtenue étend et améliore celle introduite par Lazaric et al. (2012) pour le cas $\lambda=0$. L'analyse proposée permet de quantifier l'influence du paramètre $\lambda$, de l'espace linéaire ...
International audienceL’apprentissage de la programmation peut se faire de diérentes manières. On di...
International audienceDans des travaux précédents [1-3], nous avons montré comment construire des Mo...
Les travaux présentés concernent trois thématiques connexes~: Interprétation et étude probabiliste d...
National audienceEn apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de...
National audienceEn apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de...
National audienceEn apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de...
National audienceEn apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de...
National audienceEn apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de...
National audienceDans le cadre du contrôle optimal stochastique, nous proposons une manière modifiée...
National audienceEn apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de...
National audienceEn apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de...
Cet article propose un algorithme qui vise à résoudre les problèmes d'optimisation dans le cas où la...
National audienceLe décodage vidéo et le traitement d'image dans les systèmes embarqués sont soumis ...
National audienceNous considérons des algorithmes pour apprendre des Mélanges bootstrap d'Arbres d...
National audienceLe raisonnement énergétique (ER) pour la contrainte Cumulative permet un filtrage d...
International audienceL’apprentissage de la programmation peut se faire de diérentes manières. On di...
International audienceDans des travaux précédents [1-3], nous avons montré comment construire des Mo...
Les travaux présentés concernent trois thématiques connexes~: Interprétation et étude probabiliste d...
National audienceEn apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de...
National audienceEn apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de...
National audienceEn apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de...
National audienceEn apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de...
National audienceEn apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de...
National audienceDans le cadre du contrôle optimal stochastique, nous proposons une manière modifiée...
National audienceEn apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de...
National audienceEn apprentissage par renforcement, LSTD est l'un des algorithmes d'approximation de...
Cet article propose un algorithme qui vise à résoudre les problèmes d'optimisation dans le cas où la...
National audienceLe décodage vidéo et le traitement d'image dans les systèmes embarqués sont soumis ...
National audienceNous considérons des algorithmes pour apprendre des Mélanges bootstrap d'Arbres d...
National audienceLe raisonnement énergétique (ER) pour la contrainte Cumulative permet un filtrage d...
International audienceL’apprentissage de la programmation peut se faire de diérentes manières. On di...
International audienceDans des travaux précédents [1-3], nous avons montré comment construire des Mo...
Les travaux présentés concernent trois thématiques connexes~: Interprétation et étude probabiliste d...