A closed loop framework of decision-making and learning in primate prefrontal circuits using Computational Modeling and Virtual Experimentation

Bhargav Teja Nallapu

Résumé

This thesis attempts to build a computational systems-level framework that would help to develop an understanding of the organization of the prefrontal cortex (PFC) and the basal ganglia (BG) systems and their functional interactions in the process of decision-making and goal-directed behaviour in humans. A videogame environment with an aritficial agent, Minecraft is used to design experiments to test the framework in an environment that could be more complex and realistic, if necessary. Malmo, a platform developed by Microsoft, allows to communicate with the videogame Minecraft to design the scenarios in the environment and control the behavior of the agent. The framework, along with virtual experimentation forms a closed-loop architecture for studying the high-level animal behavior. It is pointed out that the generic principles behind the flexible animal behaviors also give insights into developing artificial intelligence (A.I) that is more general and autonomous in the nature of learning, in addition to the current A.I systems that are specialized in a particular task. Behavior, of a human or an animal, is a pattern of responses to a certain stimulus (physical or abstract). A response is essentially a choice among several possible options or simply a choice between whether or not to make a choice from the available options. The neural correlates of decision-making in humans is an extensively sought after question across multiple fields ranging from behavioural psychology, economics to neuroscience and artificial intelligence (AI). Especially in the field of neuroeconomics and AI, there is a huge pursuit to understand the underpinnings of decision-making in brain. With rapidly growing interest in understanding the neural substrates of decision-making, learning and behaviour, at least in higher order mammals like rodents, non-human primates and humans, more research is leading to deeper questions about our understanding of decision-making itself. It is not so surprising because, given that any species, in some degree or the other, depends on the mechanisms of action selection or decision-making for its survival in an uncertain environment. Humans are presumably the most flexible and adaptive decision-makers who can learn the underlying structure of the world, even if the structure is hidden, and rapidly adapt their behaviour. The prefrontal cortex (PFC) has been at the forefront of this proposition and is believed to have facilitated this evolution towards a wider repertoire of behaviours that emerge from underlying primitive action selection mechanisms. It is highlighted that studying complex realistic decision-making in ecological scenarios will require a more sophisticated experimentation methods than the regular numerical simulations used. The experiments designed in Minecraft can be used to test the framework in an environment that could be more complex and realistic, if necessary. Major value addition of a virtual environment and an agent interacting in it is, that the bodily characteristics of the agent can be emphasized (like needs) and their role in value-based decision making can be discussed. Subsequently the framework, along with virtual experimentation forms a closed-loop architecture for studying the high-level animal behavior. The neural systems framework in this work rests on the network dynamics between the subsystems of PFC and BG. PFC is believed to play a crucial role, in executive functions like planning, attention, goal-directed behavior, etc. BG are a group of sub-cortical nuclei that have been extensively studied in the field of motor control and action selection. Different regions in the PFC and structures within BG are anatomically organized, including a respective sensory cortical region, in parallel and segregated loops (each of them referred here as a CBG loop). These loops can be, on a high level, divided into 3 kinds : limbic loops, associative loops and sensori-motor loops. Imagine an animal interacting with stimuli in an environment. Some of the most pertinent questions to the current state of the animal with respect to the stimuli present are : (i) What is (the value of) this stimulus? (Preference) (ii) Why is this stimulus relevant to my current internal needs? (Need) (iii) Where is this stimulus located with respect to my reference in the current environment (Orientation), and (iv) How do I reach the ’desired’ stimulus (Approach). Limbic loops address the questions What? and Why?. Sensori-motor loops are concerned with the questions Where? and How?. Associative loops form a multi-modal association of the current state information, for instance which stimulus in the limbic loops is at which position represented in the motor loops. Furthermore, in each of these loops, as the subregion of PFC represents the chosen goal, the process of achieving the goal by sustained activation between the PFC subregion and the corresponding sensory cortical area is described. Especially virtual experimentation helps highlight this phenomenon by demonstrating flexible adjustments to action plan once the goal is selected. First, a comprehensive framework with the above mentioned parallel loops is implemented. All the four loops are algorithmically implemented, describing the mutual influences between each of the prefrontal sub-regions. It is important to note that, although there is no explicit hierarchy built in the system among the loops, there are two levels of hierarchy that could implicitly arise. First, although the motor loops are free to make decisions in the action space, with sufficient learning in the limbic space, the decisions in any of the limbic loops could lead the decisions in the sensori-motor space. through the associative loop. Secondly, it is assumed that the fundamental motivation of the animal is internal homeostatis, that is to maintain its internal needs in acceptable bounds. Thus, in certain situations, the internal motivation might lead the dynamics in the limbic loops, with the Why? loop for internal motivation biasing the What? loop which might be more stimulus-driven, when there is no pressing internal need. The inputs for the CBG loops is provided by the sensory perception of the framework that communicates the information provided by Malmo from the videogame environment to the corresponding representations in the framework. Similarly the output of the framework is transformed to appropriate Malmo representations of action commands that drive the agent in the environment. Since the cognitive framework is described by several biological constraints, several adaptations have been made in the way the Malmo platform is used, in terms of sensory perception of the environment and the motor control of the agent. Next, we use this framework to study more closely, the role of limbic loops in valueguided decision making and goal-directed behavior. The emphasis rests on the limbic loops. Therefore the associative and sensori-motor loops are modeled algorithmically, taking help of the experimentation platform for motor control. As for the limbic loops, the orbitofrontal cortex (OFC) is the part of a loop for preferences and the anterior cingulate cortex (ACC), for internal needs. These loops are formed through their limbic counterpart in BG, ventral striatum (VS). VS has been widely studied and reported to be encoding various substrates of value, forming an integral part of value-based decision making. Simplistic scenarios are designed in the virtual environment using the agent and some objects and appetitive rewards in the environment. The limbic loops have been implemented according to existing computational models of decision making in the BG and amygdala. Thus the framework and the experimental platform stand as a testbed to computational models of specific processes that have to fit in a bigger picture. Of the limbic loops, the role of OFC has been closely studied. Ranging over diverse studies across decades, OFC has been implicated in almost all aspects of decision-making - state representation, outcome prediction, action selection, outcome evaluation and primarily, learning. Furthermore, deficits or lesions of OFC were argued to cause multiple behavioral impairments such as response inhibition for no longer rewarding stimulus, learning when reward contingencies are reversed etc. With more advanced lesion techniques and keener analysis, several such observations were turned down. Nevertheless, the role of OFC in value-based decision making and learning is underlined time and again, while the exact ways in which it affects the process are still unknown. As part of this thesis, several outstanding observations about the role of OFC in behavior have been summarized by consolidating numerous experimental evidences and reviews. To highlight a few, OFC is implied in : perceptual decision making and value-based decision making; within a single decision-making episode (trial), different kinds of involvement at a different phase (option presentation, action selection, outcome delivery etc.,); learning stimuli-outcome (pavlovian) and action-outcome (instrumental) associations. The neurons in OFC were found to vividly correlate with the value of the outcomes, more interestingly expressing a phenomenon of range adaptation, adapting to the changing ranges of values. OFC is believed to learn a state space representation of the task space to be able to access partially observable information for a decision. The structural heterogeneity of OFC adds to the inherent underlying complexity about studying the role of Orbitofrontal Cortex (OFC) in decision making, learning and goal-directed behavior. This has been studied in the recent years, with studies focused on dissociating the roles of lateral and medial subparts of OFC. Often, ventromedial prefrontal cortex (vmPFC) is considered under medial OFC. Bouret et al., 2010, Noonan et al., 2010, Rudebeck & Murray 2011 are some of the few comprehensive studies that clearly argued for separate roles of lateral and medial OFC. Lastly, to explain the findings of different roles of lateral and medial regions of OFC, existing computational architecture of CBG loops, pavlovian learning in amygdala and multiple evidences of amygdala-OFC-VS interactions are put together into a single model. The learning rules of reinforcement have been adapted to accommodate the appropriate credit assignment (correct outcome to correct chosen stimulus) and the value difference of the choice options. As a result, several findings from animal experiments studying the separable roles, were replicated. Particularly in the context of different roles of lateral and medial OFC in decision making as a function of the value difference between options, distinct and dissociate roles of lateral and medial were observed. Medial OFC seemed to be more crucial for the choice between two options that are close to each other, whereas lesions to medial OFC did not seem to affect the animal’s performance when the difference between the values of the options are sufficiently apart. On the contrary, surprisingly lateral OFC appeared to be crucial when the decisions are easy to make whereas lesions to lateral OFC did not seem to affect the difficult choices where the values of the options are close to each other. Similar results were found in the performances of the monkeys with lesions to to lateral and those with lesions to medial OFC. Dissociable roles in Pavlovian Instrumental Transfer were also observed. Notwithstanding the detailed neural architectures and basic neuronal descriptions used in certain parts of this work, the neural mechanisms of all the behavioral paradigms were discussed at a very simplistic level. Throughout the work, only appetitive behavior has been described, whereas most of the processes described in this work are also known to account for aversive behaviors like avoiding punishments. In addition, the role of dopamine as the neurotransmitter facilitating learning has been extremely simplified. Furthermore, with multiple systems of reinforcement learning involved in the framework, it demands for a detailed role of how dopamine could have a differential effect on these systems. One of the most important elements of behavior that is not accounted for in the framework is memory. In fact by complementing the framework with an existing computational account of a minimal working memory model, the mechanisms of sustained activities to maintain goals until achieving, aspects like giving up if the goal hasn’t been reached for a long time etc, can be explored further. Adding an explicit memory to store minimum spatial and episodic information would allow the framework to explain more flexible behaviors like pure goal-directed or opportunistic behaviors. However, that would require much sophisticated implementations of motor loops where a desired position can be navigated. Nevertheless, the investigations into the observed evidences around OFC offer great insight into understanding the very process of decision-making, value computation in general. By venturing into a realm of bio-inspired adaptive learning in an embodied virtual agent, describing the principles of motivation, goal-selection and self-evaluation, it is highlighted that the field of reinforcement learning and artificial intelligence has a lot to gain from studying the role of prefrontal systems in decision-making.

Cette thèse tente de construire un cadre de travail au niveau des systèmes informatiques qui aiderait à comprendre l’organisation des systèmes du cortex préfrontal (PFC) et des ganglions de base (BG) et leurs interactions fonctionnelles dans le processus décisionnel et le comportement ciblé chez les humains. Environnement de jeu vidéo avec un agent artificiel, Minecraft est utilisé pour concevoir des expériences visant à tester le cadre dans un environnement qui pourrait être plus complexe et réaliste, si nécessaire. Malmo, une plateforme développée par Microsoft, permet de communiquer avec le jeu vidéo Minecraft pour concevoir les scénarios dans l’environnement et contrôler le comportement de l’agent. Le cadre, avec l’expérimentation virtuelle forme une architecture en boucle fermée pour l’étude du comportement animal de haut niveau. Il est souligné que les principes génériques qui sous-tendent les comportements animaux flexibles donnent également un aperçu du développement de l’intelligence artificielle (I.A.) qui est plus générale et autonome dans la nature de l’apprentissage, en plus des systèmes actuels d’I.A. qui sont spécialisés dans une tâche particulière. Le comportement, d’un humain ou d’un animal, est un ensemble de réactions à un certain stimulus (physique ou abstrait). Une réponse est essentiellement un choix parmi plusieurs options possibles ou simplement une décision entre faire un choix parmi les options disponibles ou non. Les corrélats neuronaux de la prise de décision chez l’homme sont une question très recherchée dans de multiples domaines allant de la psychologie du comportement, de la neuroéconomie et à l’intelligence artificielle (I.A.). En particulier dans le domaine de la neuroéconomie et de l’I.A., il y a une recherche énorme pour comprendre les fondements de la prise de décision dans le cerveau. Avec l’intérêt croissant pour la compréhension des substrats neuronaux de la prise de décision, de l’apprentissage et du comportement, du moins chez les mammifères d’ordre supérieur comme les rongeurs, les primates non humains et les humains, plus de recherche mène à des questions plus profondes sur notre compréhension du processus décisionnel lui-même. Ce n’est pas si surprenant, étant donné qu’une espèce, dans une certaine mesure, dépend des mécanismes de sélection des actions ou de prise de décision pour sa survie dans un environnement incertain. L’homme est sans doute le décideur le plus souple et le plus adaptable qui peut apprendre la structure sous-jacente du monde, même si cette structure est cachée, et il peut adapter rapidement son comportement. Le cortex préfrontal (PFC) est à l’avant-garde de cette faculté et on croit qu’il a facilité cette évolution vers un répertoire plus large de comportements qui émergent des mécanismes sous-jacents de sélection des actions primitives. Il est souligné que l’étude de la prise de décisions complexes et réalistes dans des scénarios écologiques nécessitera des méthodes d’expérimentation plus sophistiquées que les simulations numériques classiques utilisées. Les expériences conçues dans Minecraft peuvent être utilisées pour tester le cadre dans un environnement qui pourrait être plus complexe et réaliste, si nécessaire. La valeur ajoutée majeure d’un environnement virtuel et d’un agent qui y interagit est que les caractéristiques corporelles de l’agent peuvent être soulignées (comme les besoins) et leur rôle dans la prise de décision basée sur la valeur peut être discuté. Par la suite, le cadre, avec l’expérimentation virtuelle forme une architecture en boucle fermée pour l’étude du comportement animal de haut niveau. Le cadre des systèmes neuronaux dans ce travail repose sur la dynamique des réseaux entre les sous-systèmes de PFC et BG. On croit que le PFC joue un rôle crucial dans les fonctions exécutives comme la planification, l’attention, le comportement ciblé, etc. Les BG sont un groupe de noyaux sous-corticaux qui ont fait l’objet d’études approfondies dans le domaine du contrôle moteur et de la sélection d’action. Différentes régions du PFC et structures au sein des BG sont anatomiquement organisées, en association avec une région corticale sensorielle respective, en boucles parallèles et séparées (chacune d’entre elles étant appelée ici une boucle CBG). Ces boucles peuvent être, à un niveau élevé, divisées en 3 types : les boucles limbiques, les boucles associatives et les boucles sensorimotrices. Imaginez un animal interagissant avec des stimuli dans un environnement. Voici quelques-unes des questions les plus pertinentes relatives à l’état actuel de l’animal en ce qui concerne les stimuli présents : (i) Quel est (la valeur de) ce stimulus ? (Préférence) (ii) Pourquoi ce stimulus est-il pertinent pour mes besoins internes actuels ? (Besoin) (iii) Où est ce stimulus situé par rapport à ma référence dans l’environnement actuel (Orientation), et (iv) Comment atteindre le stimulus ’souhaité’ (Approche). Les boucles limbiques répondent aux questions Quoi? et Pourquoi? Les boucles sensori-motrices sont concernées par les questions Où? et Comment?. Les boucles associatives forment une association multimodale de l’information sur l’état actuel, par exemple quel stimulus dans les boucles limbiques est représenté à quelle position dans les boucles motrices. En outre, dans chacune de ces boucles, comme la sous-région de la PFC représente l’objectif choisi, le processus de réalisation de l’objectif par une activation soutenue entre la sous-région de la PFC et la région corticale sensorielle correspondante est décrit. L’expérimentation, en particulier virtuelle, permet de mettre en évidence ce phénomène en faisant preuve de souplesse dans l’adaptation du plan d’action une fois l’objectif choisi. Tout d’abord, un cadre global avec les boucles parallèles susmentionnées est mis en oeuvre. Les quatre boucles sont mises en oeuvre de manière algorithmique, décrivant les influences mutuelles entre chacune des sous-régions préfrontales. Il est important de noter que, bien qu’il n’y ait pas de hiérarchie explicite établie dans le système entre les boucles, deux niveaux de hiérarchie pourraient implicitement apparaître. Premièrement, bien que les boucles motrices soient libres de prendre des décisions dans l’espace d’action, avec suffisamment d’apprentissage dans l’espace limbique, les décisions dans n’importe laquelle des boucles limbiques pourraient conduire les décisions dans l’espace sensorimoteur à travers la boucle associative. Deuxièmement, on suppose que la motivation fondamentale de l’animal est l’homéostasie interne, c’est-à-dire de maintenir ses besoins internes dans des limites acceptables. Ainsi, dans certaines situations, la motivation interne peut conduire la dynamique dans les boucles limbiques, avec la boucle Pourquoi?. Les entrées pour les boucles CBG sont fournies par la perception sensorielle du cadre qui communique les informations fournies par Malmö à partir de l’environnement de jeu vidéo aux représentations correspondantes dans le cadre. De même, la sortie du cadre est transformée en représentations Malmo appropriées des commandes d’action qui entraînent l’agent dans l’environnement. Le cadre cognitif étant décrit par plusieurs contraintes biologiques, plusieurs adaptations ont été apportées à l’utilisation de la plate-forme de Malmo, en termes de perception sensorielle de l’environnement et de contrôle moteur de l’agent. Ensuite, nous utilisons ce cadre pour étudier de plus près le rôle des boucles limbiques dans la prise de décision guidée par les valeurs et le comportement ciblé. L’accent est mis sur les boucles limbiques. Les boucles associatives et sensori-motrices sont donc modélisées de manière algorithmique, à l’aide de la plate-forme d’expérimentation pour le contrôle moteur. Comme pour les boucles limbiques, le cortex orbitofrontal (OFC) est la partie d’une boucle pour les préférences et le cortex cingulaire antérieur (ACC), pour les besoins internes. Ces boucles sont formées par leur contrepartie limbique en BG, striatum ventral (VS). Le VS etait fait l’objet de nombreuses études et on a signalé qu’il encode divers substrats de valeur, faisant ainsi partie intégrante de la prise de décisions fondées sur les valeurs. Des scénarios simplistes sont conçus dans l’environnement virtuel en utilisant l’agent et certains objets et des récompenses appétissantes dans l’environnement. Les boucles limbiques ont été mises en oeuvre selon les modèles informatiques existants de prise de décision dans les BG et l’amygdale. Ainsi, le cadre et la plate-forme expérimentale servent de banc d’essai à des modèles informatiques de processus spécifiques qui doivent s’inscrire dans une perspective plus large. Parmi les boucles limbiques, le rôle de l’OFC a été étudié de près. Au fil des décennies, l’OFC a été impliqué dans presque tous les aspects de la prise de décision - représentation de l’état, prédiction des résultats, sélection des actions, évaluation des résultats et surtout, l’apprentissage. En outre, les déficits ou les lésions de l’OFC ont été argués pour causer des déficiences comportementales multiples telles que l’inhibition de réponse pour ne plus récompenser le stimulus, l’apprentissage quand les contingences de récompense sont inversées, etc. Avec des techniques de lésions plus avancées et une analyse plus fine, plusieurs de ces observations ont été rejetées. Néanmoins, le rôle d’OFC dans la prise de décision et l’apprentissage fondés sur les valeurs est souligné à maintes reprises, alors que l’on ignore encore la manière exacte dont il affecte le processus. Dans le cadre de cette thèse, plusieurs observations remarquables sur le rôle d’OFC dans le comportement ont été résumées en consolidant de nombreuses preuves expérimentales et revues. En voici quelques exemples : la prise de décision perceptive et la prise de décision fondée sur les valeurs ; au sein d’un même épisode de prise de décision (l’essai), différents types de participation à une étape différente (présentation des options, sélection des actions, prestation des résultats, etc.) ; les associations des stimuli et des résultats d’apprentissage (Pavlovien) et d’actions-résultats (instrumental). On a constaté que les neurones d’OFC présentent une corrélation frappante avec la valeur des résultats, exprimant de façon plus intéressante un phénomène d’adaptation de l’intervalle, s’adaptant à l’évolution de l’intervalle des valeurs. L’OFC est censé apprendre une représentation spatiale d’état de l’espace de travail pour pouvoir accéder à des informations partiellement observables en vue d’une décision. L’hétérogénéité structurelle d’OFC ajoute à la complexité sous- jacente inhérente à l’étude du rôle d’OFC dans la prise de décision, l’apprentissage et le comportement ciblé. Cette question a été étudiée au cours des dernières années, avec des études axées sur la dissociation des rôles des sous-parties latérale et médial de l’OFC. Souvent, le cortex préfrontal ventromédial (vmPFC) est pris en compte dans le cadre d’OFC médial. Bouret et al 2010, Noonan et al 2010, Rudebeck & Murray 2011 sont quelques-unes des rares études approfondies qui ont clairement plaidé en faveur de rôles distincts pour l’OFC latéral et médial. Enfin, pour expliquer les résultats des différents rôles des régions latérales et médianes de l’OFC, l’architecture informatique existante des boucles CBG, l’apprentissage pavlovien dans l’amygdale et les multiples preuves des interactions amygdales-OFC-VS sont réunies dans un modèle unique. Les règles d’apprentissage du renforcement ont été adaptées pour tenir compte de l’attribution de crédits appropriée (résultat correct pour corriger le stimulus choisi) et de la différence de valeur des options de choix. Par conséquent, plusieurs résultats d’expériences sur des animaux étudiant les rôles séparables ont été reproduits. En particulier dans le contexte des différents rôles de l’OFC latéral et médial dans la prise de décision en fonction de la différence de valeur entre les options, des rôles distincts et dissociés des régions latérale et médiale ont été observés. L’OFC médial semblait plus crucial pour le choix entre deux options proches l’une de l’autre, alors que les lésions de l’OFC médial ne semblaient pas affecter la performance de l’animal lorsque la différence entre les valeurs des deux options est suffisamment éloignée. Au contraire, de manière surprenante, l’OFC latéral s’est avéré crucial lorsque les décisions sont faciles à prendre alors que les lésions de l’OFC latéral ne semblaient pas affecter les choix difficiles où les valeurs des options sont proches les unes des autres. Des résultats similaires ont été trouvés dans les performances des singes avec des lésions a l’OFC latéral et celles avec des lésions à l’OFC médial. Des rôles dissociables dans le transfert instrumental pavlovien ont également été observés. Nonobstant les architectures neuronales détaillées et les descriptions neuronales de base utilisées dans certaines parties de ce travail, les mécanismes neuronaux de tous les paradigmes comportementaux ont été discutés à un niveau très simpliste. Tout au long du travail, seul le comportement appétitif a été décrit, alors que la plupart des processus décrits dans ce travail sont également connus pour expliquer les comportements aversifs comme éviter les punitions. En outre, le rôle de la dopamine en tant que neurotransmetteur facilitant l’apprentissage a été extrêmement simplifié. De plus, avec les multiples systèmes d’apprentissage de renforcement impliqués dans le cadre, il exige un rôle détaillé sur la façon dont la dopamine pourrait avoir un effet différentiel sur ces systèmes. L’un des éléments les plus importants du comportement qui n’est pas pris en compte dans le cadre est la mémoire. En fait, en complétant le cadre par un compte rendu informatique existant d’un modèle de mémoire de travail minimale, les mécanismes des activités soutenues pour maintenir les objectifs jusqu’à ce qu’ils soient atteints, des aspects comme l’abandon si l’objectif n’a pas été atteint depuis longtemps, etc. peuvent être explorés davantage. L’ajout d’une mémoire explicite pour stocker un minimum d’informations spatiales et épisodiques permettrait au cadre d’expliquer des comportements plus flexibles comme des comportements purement ciblés ou opportunistes. Cependant, cela nécessiterait des implémentations très sophistiquées de boucles de moteur où l’on peut naviguer dans une position désirée. Néanmoins, les recherches sur les preuves observées autour de l’OFC permettent de mieux comprendre le processus même de la prise de décision et le calcul de la valeur en général. En s’aventurant dans un domaine d’apprentissage adaptatif bio-inspiré dans un agent virtuel incarné, décrivant les principes de motivation, de sélection d’objectifs et d’auto-évaluation, il est souligné que le domaine de l’apprentissage par renforcement et de l’intelligence artificielle a beaucoup à gagner à étudier le rôle des systèmes préfrontaux dans le processus décisionnel.

A closed loop framework of decision-making and learning in primate prefrontal circuits using Computational Modeling and Virtual Experimentation

Un cadre en boucle fermée sur la prise de décision et l’apprentissage dans les circuits préfrontaux des primates, par modélisation computationnelle et expérimentation virtuelle

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager