Deterministic Policy Gradient Algorithms

Abstract : In this paper we consider deterministic policy gradient algorithms for reinforcement learning with continuous actions. The deterministic pol- icy gradient has a particularly appealing form: it is the expected gradient of the action-value func- tion. This simple form means that the deter- ministic policy gradient can be estimated much more efficiently than the usual stochastic pol- icy gradient. To ensure adequate exploration, we introduce an off-policy actor-critic algorithm that learns a deterministic target policy from an exploratory behaviour policy. We demonstrate that deterministic policy gradient algorithms can significantly outperform their stochastic counter- parts in high-dimensional action spaces.
Type de document :
Communication dans un congrès
ICML, Jun 2014, Beijing, China. 2014
Liste complète des métadonnées

Littérature citée [21 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00938992
Contributeur : Thomas Degris <>
Soumis le : mercredi 29 janvier 2014 - 18:07:21
Dernière modification le : jeudi 12 avril 2018 - 14:19:11
Document(s) archivé(s) le : dimanche 9 avril 2017 - 02:40:14

Fichier

dpg-icml2014.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00938992, version 1

Collections

Citation

David Silver, Guy Lever, Nicolas Heess, Thomas Degris, Daan Wierstra, et al.. Deterministic Policy Gradient Algorithms. ICML, Jun 2014, Beijing, China. 2014. 〈hal-00938992〉

Partager

Métriques

Consultations de la notice

2671

Téléchargements de fichiers

2552