J. Aubin, A. Bayen, N. Bonneuil, and P. Saint-pierre, Viability, Control and Games: Regulation of Complex Evolutionary Systems Under Uncertainty and Viability Constraints Efficient Learning in Games, Proceedings de la huitème Conférence Francophone sur l'Apprentissage (CAp'06), 2005.

A. Cassandra, Exact and approximate algorithms for partially observable Markov decision processes, 1998.

I. Chades, Planification distribuée dans les systèmes multi-agents à l'aide de processus décisionnels de Markov, Thèse de l, 2003.

M. Cotel, V. Thomas, C. Bourjot, D. Desor, V. Chevrier et al., Processus cognitifs et differenciation sociale de groupes de rats : interet de la modelisation multi-agents, 2005.

A. Dutech, O. Buffet, and F. Charpillet, Multi-Agent systems by incremental gradient reinforcement learning, Sevtenteenth International Joint Conference on Artificial Intelligence, IJCAI-01, 2001.
URL : https://hal.archives-ouvertes.fr/inria-00101090

A. Dutech and B. Scherrer, Learning to use contextual information for solving partially observable Markov decision problems, Proc. of the 5th European Workshop on Reinforcement Learning, 2001.

A. Dutech and M. Samuelides, Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés. Revue d'Intelligence Artificielle, 2003.
DOI : 10.3166/ria.17.559-589

S. Hart and A. Mas-colell, Uncoupled dynamics do not lead to Nash equilibrium, American Economic Review, pp.1830-1836, 2003.

R. M. Myerson, Game theory: Analysis of conflicts Markov decision processes: discrete stochastic dynamic programming, 1991.

B. Skinner, The Behavior of Organisms: An Experimental Analysis, 1938.

R. Sutton and A. Barto, Reinforcement Learning, 1998.
DOI : 10.1007/978-1-4615-3618-5

URL : https://hal.archives-ouvertes.fr/hal-00764281

V. Thomas, C. Bourjot, and V. Chevrier, Heuristique pour l'apprentissage décentralisé d'interaction dans les systèmes multi-agents réactifs, 2006.