Combining policies: the best of human expertise and neurocontrol

Vincent Berthier 1, 2 Adrien Couëtoux 1, 2 Olivier Teytaud 1, 2
2 TAO - Machine Learning and Optimisation
CNRS - Centre National de la Recherche Scientifique : UMR8623, Inria Saclay - Ile de France, UP11 - Université Paris-Sud - Paris 11, LRI - Laboratoire de Recherche en Informatique
Abstract : We consider sequential decision making in the case where a generative model and a parametric policy are available. Such a framework is naturally tackled with Direct Policy Search, i.e. parametric op-timisation over simulations. We propose a simple method that combines this parametric policy with a more generic neural network, where all parameters are trained simultaneously. As such, our approach doesn't require any computational overhead. We show that the resulting policy significantly outperforms both the domain specific policies and the neural network on a unit commitment test problem.
Type de document :
Communication dans un congrès
Artificial Evolution 2015, 2015, Lyon, France. To appear, Proceedings of Artificial Evolution 2015 (EA2015)
Liste complète des métadonnées

Littérature citée [24 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01194516
Contributeur : Olivier Teytaud <>
Soumis le : lundi 7 septembre 2015 - 10:42:01
Dernière modification le : jeudi 11 janvier 2018 - 06:22:14
Document(s) archivé(s) le : mardi 8 décembre 2015 - 11:38:11

Fichier

EAsource.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01194516, version 1

Citation

Vincent Berthier, Adrien Couëtoux, Olivier Teytaud. Combining policies: the best of human expertise and neurocontrol. Artificial Evolution 2015, 2015, Lyon, France. To appear, Proceedings of Artificial Evolution 2015 (EA2015). 〈hal-01194516〉

Partager

Métriques

Consultations de la notice

195

Téléchargements de fichiers

154