R. Coulom, Reinforcement learning using neural networks, with applications to motor control. Doctoral dissertation, 2002.
URL : https://hal.archives-ouvertes.fr/tel-00003985

K. Doya, Reinforcement Learning in Continuous Time and Space, Neural Computation, vol.3, issue.1, pp.243-269, 2000.
DOI : 10.1109/9.580874

P. Marbach and J. N. Tsitsiklis, Simulation-based optimization of Markov reward processes, IEEE Transactions on Automatic Control, vol.46, issue.2, pp.191-209, 2001.
DOI : 10.1109/9.905687

E. Todorov and W. Li, Locally optimal control of continuous stochastic systems, Advances in Neural Information Processing Systems 15, 2003.