Résolution de Dec-POMDP à horizon infini à l'aide de contrôleurs à états finis dans JESP - Archive ouverte HAL Access content directly
Conference Papers Year :

Résolution de Dec-POMDP à horizon infini à l'aide de contrôleurs à états finis dans JESP

(1) , (1) , (1) , (1)
1

Abstract

This paper looks at solving collaborative planning problems formalized as Decentralized POMDPs (DecPOMDPs) by searching for Nash equilibria, i.e., situations where each agent’s policy is a best response to the other agents’ (fixed) policies. While the joint equilibrium-based search for policies (JESP) algorithm does this in the finitehorizon setting relying on policy trees, we propose here to adapt JESP to infinite-horizon Dec-POMDPs by using Finite State Controller policy representations. In this article, we (1) explain how to turn a Dec-POMDP with N −1 fixed finite state controllers into an infinite-horizon POMDP whose solution is a best response of the Nth agent ; (2) propose a JESP variant based on this transformation, called inf-JESP, for solving infinite-horizon Dec-POMDPs ; (3) introduce heuristic initializations for JESP aiming at deterministically leading to good solutions ; and (4) conduct experiments on state-of-the-art benchmark problems to evaluate our approach.
Cet article s'intéresse à la résolution de problèmes de planification collaborative formalisés comme des POMDP décentralisés (Dec-POMDP) en cherchant des équilibres de Nash, c'est-à-dire des situations dans lesquelles la politique de chaque agent est une meilleure réponse aux politiques (fixes) des autres agents. Alors que l'algorithme joint equilibrium-based search for policies (JESP) fait ceci dans le cadre d'horizons finis en se reposant sur des arbres-politiques, nous proposons ici d'adapter JESP aux Dec-POMDP à horizon infini en représentant les politiques des agents par des contrôleurs à états finis. Dans cet article, nous (1) expliquons comment transformer un Dec-POMDP avec N − 1 contrôleurs à états finis fixés en un POMDP à horizon infini dont la solution est une meilleure réponse du N ième agent ; (2) proposons une variante de JESP, appelée inf-JESP, reposant sur cette transformation pour résoudre des Dec-POMDP à horizon infini ; (3) introduisons des initialisations heuristiques pour JESP visant à conduire à de bonnes solutions ; et (4) conduisons une évaluation empirique de notre approche sur des bancs d'essais de l'état de l'art.
Fichier principal
Vignette du fichier
jfpda2021-fr.pdf (687.6 Ko) Télécharger le fichier
Origin : Files produced by the author(s)

Dates and versions

hal-03523841 , version 1 (12-01-2022)

Identifiers

  • HAL Id : hal-03523841 , version 1

Cite

Yang You, Vincent Thomas, Francis Colas, Olivier Buffet. Résolution de Dec-POMDP à horizon infini à l'aide de contrôleurs à états finis dans JESP. JFPDA 2021 - Journées Francophones Planification, Décision et Apprentissage, Jun 2021, Bordeaux (virtuel), France. ⟨hal-03523841⟩
22 View
12 Download

Share

Gmail Facebook Twitter LinkedIn More