Une étude comparative de quelques schémas d'approximation de type iterations sur les politiques

Bruno Scherrer

Rapport (Rapport De Recherche) Année : 2014

Une étude comparative de quelques schémas d'approximation de type iterations sur les politiques

(1)

Bruno Scherrer

Fonction : Auteur
PersonId : 1406
IdHAL : bruno-scherrer
IdRef : 073360708

Autonomous intelligent machine

Résumé

Nous considérons le problème du contrôle optimal actualisé à horizon infini formalisé dans le cadre des processus de décision Markoviens. Nous nous focalisons sur plusieurs variations approchées du schéma itération sur les politiques: itérations sur les politiques approché (API), itérations sur les politiques conservatif (CPI), une adaptation naturelle de l'algorithme ''Policy Search by Dynamic Programming'' au cas de l'horizon infini (PSDP), et itérations sur les politiques non-stationnaires (NSPI). Pour tous ces algorithmes, nous décrivons des bornes de performance en fonction de l'erreur $\epsilon$ à chaque itération, et faisons une comparaison en portant une attention particulière aux coefficients de concentration impliqués, au nombre d'itérations et à la mémoire requis. Notre analyse souligne plusieurs points: 1) Les garanties de performance de CPI peuvent être arbitrairement meilleures que celle d'API, mais au prix d'une augmentation---exponentielle en $\frac{1}{\epsilon}$---du nombre d'itérations. 2) PSDP combine les avantages d'API et CPI: sa garantie de performance est similaire à celle de CPI, et elle est obtenue en un nombre d'itérations identique à celui d'API. 3) Contrairement à API qui requiert une mémoire constante, la mémoire dont CPI et PSDP ont besoin est proportionnelle au nombre d'itérations, ce qui peut être problématique lorsque le facteur d'actualisation $\gamma$ est proche de 1 ou lorsque l'erreur d'approximation $\epsilon$ est proche de 0; nous montrons que l'algorithme NSPI permet de faire un compromis entre la bonne mémoire d'API et la meilleure performance de PSDP. Enfin, des simulations numériques de ces schémas algorithmiques confirment notre analyse.

Domaines

Optimisation et contrôle [math.OC] Apprentissage [cs.LG]

Fichier principal

scherrer.pdf (629.74 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Bruno Scherrer : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-00989991

Soumis le : lundi 12 mai 2014-17:39:03

Dernière modification le : mercredi 24 avril 2024-15:01:08

Archivage à long terme le : mardi 12 août 2014-12:10:58

Dates et versions

hal-00989991 , version 1 (12-05-2014)

Identifiants

HAL Id : hal-00989991 , version 1

Citer

Bruno Scherrer. Une étude comparative de quelques schémas d'approximation de type iterations sur les politiques. [Rapport de recherche] 2014. ⟨hal-00989991⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE INRIA2 TDS-MACS LORIA LORIA-AIS LARA

134 Consultations

171 Téléchargements

Une étude comparative de quelques schémas d'approximation de type iterations sur les politiques

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager