s'authentifier
version française rss feed

inria-00337591, version 1

Basis Expansion in Natural Actor Critic Methods

Sertan Girgin () 1, Philippe Preux (Auteur à contacter de préférence) a12

European Workshop on Reinforcement Learning 5323 (2008) 111-124

Résumé : In reinforcement learning, the aim of the agent is to find a policy that maximizes its expected return. Policy gradient methods try to accomplish this goal by directly approximating the policy using a parametric function approximator; the expected return of the current policy is estimated and its parameters are updated by steepest ascent in the direction of the gradient of the expected return with respect to the policy parameters. In general, the policy is defined in terms of a set of basis functions that capture important features of the problem. Since the quality of the resulting policies directly depend on the set of basis functions, and defining them gets harder as the complexity of the problem increases, it is important to be able to find them automatically. In this paper, we propose a new approach which uses cascade-correlation learning architecture for automatically constructing a set of basis functions within the context of Natural Actor-Critic (NAC) algorithms. Such basis functions allow more complex policies be represented, and consequently improve the performance of the resulting policies. We also present the effectiveness of the method empirically.

  • a –  Université Charles de Gaulle - Lille III
  • 1 :  SEQUEL (INRIA Futurs)
  • INRIA – CNRS : UMR8146 – Université Lille I - Sciences et technologies – Université Lille III - Sciences humaines et sociales – Ecole Centrale de Lille
  • 2 :  Laboratoire d'Informatique Fondamentale de Lille (LIFL)
  • CNRS : UMR8022 – Université Lille I - Sciences et technologies – Université Lille III - Sciences humaines et sociales – INRIA
  • Collaboration : Grid'5000
  • Domaine : Informatique/Apprentissage
    Informatique/Intelligence artificielle
    Informatique/Réseau de neurones
  • Mots-clés : reinforcement learning – feature discovery – feature construction – direct policy search – episodic natural actor-critic – cascade-correlation network – neural network
 
  • inria-00337591, version 1
  • oai:hal.inria.fr:inria-00337591
  • Contributeur : 
  • Soumis le : Jeudi 8 Novembre 2012, 15:35:12
  • Dernière modification le : Vendredi 9 Novembre 2012, 08:17:30
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...