Optimisme en apprentissage par renforcement et divergence de Kullback-Leibler
Résumé
We consider model-based reinforcement learning in finite Markov Decision Processes (MDPs), focussing on so-called optimistic strategies.
Origine : Fichiers produits par l'(les) auteur(s)