Résolution de Dec-POMDP à horizon infini à l'aide de contrôleurs à états finis dans JESP

This paper looks at solving collaborative planning problems formalized as Decentralized POMDPs (DecPOMDPs) by searching for Nash equilibria, i.e., situations where each agent’s policy is a best response to the other agents’ (fixed) policies. While the joint equilibrium-based search for policies (JESP) algorithm does this in the finitehorizon setting relying on policy trees, we propose here to adapt JESP to infinite-horizon Dec-POMDPs by using Finite State Controller policy representations. In this article, we (1) explain how to turn a Dec-POMDP with N −1 fixed finite state controllers into an infinite-horizon POMDP whose solution is a best response of the Nth agent ; (2) propose a JESP variant based on this transformation, called inf-JESP, for solving infinite-horizon Dec-POMDPs ; (3) introduce heuristic initializations for JESP aiming at deterministically leading to good solutions ; and (4) conduct experiments on state-of-the-art benchmark problems to evaluate our approach.

Cet article s'intéresse à la résolution de problèmes de planification collaborative formalisés comme des POMDP décentralisés (Dec-POMDP) en cherchant des équilibres de Nash, c'est-à-dire des situations dans lesquelles la politique de chaque agent est une meilleure réponse aux politiques (fixes) des autres agents. Alors que l'algorithme joint equilibrium-based search for policies (JESP) fait ceci dans le cadre d'horizons finis en se reposant sur des arbres-politiques, nous proposons ici d'adapter JESP aux Dec-POMDP à horizon infini en représentant les politiques des agents par des contrôleurs à états finis. Dans cet article, nous (1) expliquons comment transformer un Dec-POMDP avec N − 1 contrôleurs à états finis fixés en un POMDP à horizon infini dont la solution est une meilleure réponse du N ième agent ; (2) proposons une variante de JESP, appelée inf-JESP, reposant sur cette transformation pour résoudre des Dec-POMDP à horizon infini ; (3) introduisons des initialisations heuristiques pour JESP visant à conduire à de bonnes solutions ; et (4) conduisons une évaluation empirique de notre approche sur des bancs d'essais de l'état de l'art.

Mots clés

Dec-POMDP JESP finite state controllers Nash equilibrium

Dec-POMDP JESP contrôleurs à états finis équilibre de Nash Dec-POMDP finite state controllers Nash equilibrium

Domaines

Intelligence artificielle [cs.AI]

Fichier principal

jfpda2021-fr.pdf (687.6 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Olivier Buffet : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-03523841

Soumis le : mercredi 12 janvier 2022-22:47:15

Dernière modification le : mercredi 29 novembre 2023-16:11:37

Archivage à long terme le : mercredi 13 avril 2022-23:45:49

Dates et versions

hal-03523841 , version 1 (12-01-2022)

Identifiants

HAL Id : hal-03523841 , version 1

Citer

Yang You, Vincent Thomas, Francis Colas, Olivier Buffet. Résolution de Dec-POMDP à horizon infini à l'aide de contrôleurs à états finis dans JESP. JFPDA 2021 - Journées Francophones Planification, Décision et Apprentissage, Jun 2021, Bordeaux (virtuel), France. ⟨hal-03523841⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE INRIA2 LORIA LORIA-AIS ANR

47 Consultations

42 Téléchargements