Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO - Inria - Institut national de recherche en sciences et technologies du numérique Access content directly
Other Publications Year : 2012

Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO

Abstract

L'apprentissage par renforcement (AR) fait maintenant partie de l'état de l'art dans le domaine de l'optimisation de système de dialogues vocaux. La plupart des méthodes appliquées aux systèmes de dialogue basées sur l'AR, comme par exemple celles qui utilisent des processus gaussiens, requièrent de tester des changements plus ou moins aléatoires dans la politique. Cette manière de procéder est appelée apprentissage " onpolicy ". Néanmoins, celle-ci peut induire des comportements de la part du système incohérents aux yeux de l'utilisateur. Les algorithmes devraient idéalement trouver la politique optimale d'après l'observation d'interactions générées par une politique sous-optimale mais proposant un comportement cohérent à l'utilisateur : c'est l'apprentissage " off-policy ". Dans cette contribution, un algorithme efficace sur les échantillons permettant l'apprentissage off-policy et en ligne la politique optimale est proposé. Cet algorithme combiné à une représentation compacte, non-linéaire de la fonction de valeur (un perceptron multicouche) permet de gérer des systèmes à grande échelle.
Fichier principal
Vignette du fichier
RFIA_2012_LDMGOP.pdf (223.56 Ko) Télécharger le fichier
Origin : Files produced by the author(s)

Dates and versions

hal-00656997 , version 1 (05-01-2012)

Identifiers

  • HAL Id : hal-00656997 , version 1

Cite

Lucie Daubigney, Matthieu Geist, Olivier Pietquin. Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO. Actes du 18ème congrès francophone sur la Reconnaissance de Formes et l'Intelligence Artificielle (RFIA 2012), 2012, pp.1-8. ⟨hal-00656997⟩
234 View
399 Download

Share

Gmail Facebook X LinkedIn More