Sur le Gradient de la Politique pour les Systèmes Multi-Agents Coopératifs

Reinforcement Learning (RL) for decentralized partially observable Markov decision processes (Dec-POMDPs) is lagging behind the spectacular breakthroughs of single-agent RL. That is because assumptions that hold in single-agent settings are often obsolete in decentralized multi-agent systems. To tackle this issue, we investigate the foundations of policy gradient methods within the centralized training for decentralized control (CTDC) paradigm. In this paradigm, learning can be accomplished in a centralized manner while each agent can still execute its policy independently at deployment. Using this insight, we establish a new policy gradient theorem and compatible function approximations for decentralized multi-agent systems. Resulting actor critic methods preserve the decentralized control at the execution phase, but can also estimate the policy gradient from collective experiences guided by a centralized critic at the training phase. Experiments demonstrate our policy gradient methods compare favorably against standard RL techniques in benchmarks from the literature.

L'apprentissage par renforcement (RL) pour les processus décisionnels de Markov partiellement observables décentralisés (Dec-POMDPs) accuse un certain retard par rapport aux progrès spectaculaires du RL mono-agent. Ceci s'explique en partie par un certain nombre d'hypothèses valables dans le cadre mono-agent, mais invalides dans les systèmes multi-agents. Pour combler ce retard, nous explorons les fondements mathématiques des méthodes par ascension du gradient de la politique dans le paradigme de l'entraînement centralisé pour un contrôle décentralisé (CTDC). Dans ce paradigme, l'apprentissage peut avoir lieu de façon centralisée tout en gardant la contrainte d'une exécution décentralisée. En partant de cette intuition , nous établissons dans ce document une extension multi-agents du théorème du gradient de la politique et du théorème de compatibilité des fonctions d'approximation de la valeur. Nous en tirons des méthodes « acteur critique » (AC) qui parviennent (i) à estimer le gradient de la politique à partir d'expériences collectives mais aussi (ii) à préserver le contrôle décentralisé du système à l'exécution. Nos expérimentations montrent que nos méthodes ne souffrent pas de la comparaison avec les techniques standard en RL sur un ensemble de bancs de test de la littérature.

Mots clés

Actor Critic Methods Multi-Agent Systems Partially Observable Markov Decision Processes Decentralized and Stochastic Control

Méthodes Acteur Critique Contrôle décentralisé et stochastique Processus Décisionnel de Markov Partiellement Observable Systèmes Multi-Agents

Domaines

Intelligence artificielle [cs.AI]

Fichier principal

JFPDA_2018_paper_11.pdf (1.4 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Olivier Buffet : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01840852

Soumis le : lundi 16 juillet 2018-17:24:34

Dernière modification le : mercredi 27 mars 2024-09:28:03

Archivage à long terme le : mercredi 17 octobre 2018-16:53:17

Dates et versions

hal-01840852 , version 1 (16-07-2018)

Identifiants

HAL Id : hal-01840852 , version 1

Citer

Guillaume Bono, Jilles S Dibangoye, Laëtitia Matignon, Florian Pereyron, Olivier Simonin. Sur le Gradient de la Politique pour les Systèmes Multi-Agents Coopératifs. JFPDA 2018 - Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes, Jul 2018, Nancy, France. pp.1-13. ⟨hal-01840852⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LYON1 UNIV-LYON2 INSA-LYON EC-LYON LIRIS INRIA2 LABEXIMU JFPDA2018 CITI INSA-GROUPE CHAIREVOLVO UDL JFSMA

404 Consultations

281 Téléchargements