Language representations in deep learning algorithms and the brain

Charlotte Caucheteux

Résumé

Recent deep language models -- like GPT-3 and ChatGPT -- are capable to produce text that closely resembles that of humans. Such similarity raises questions about how the brain and deep models process language, the mechanisms they use, and the internal representations they construct. In this thesis, I compare the internal representations of the brain and deep language models, with the goal of identifying their similarities and differences. To this aim, I analyze functional resonance imaging (fMRI) and magnetoencephalography (MEG) recordings of participants listening to and reading sentences, and compare them to the activations of thousands of language algorithms corresponding to these same sentences.Our results first highlight high-level similarities between the internal representations of the brain and deep language models. We find that deep nets' activations significantly predict brain activity across subjects for different cohorts (>500 participants), recording modalities (MEG and fMRI), stimulus types (isolated words, sentences, and natural stories), stimulus modalities (auditory and visual presentation), languages (Dutch, English and French), and deep language models. This alignment is maximal in brain regions repeatedly associated with language, for the best-performing algorithms and for participants who best understand the stories. Critically, we evidence a similar processing hierarchy between the two systems. The first layers of the algorithms align with low-level processing regions in the brain, such as auditory areas and the temporal lobe, while the deep layers align with regions associated with higher-level processing, such fronto-parietal areas.We then show how such similarities can be leveraged to build better predictive models of brain activity and better decompose several linguistic processes in the brain, such as syntax and semantics. Finally, we explore the differences between deep language models and the brain's activations. We find that the brain predicts distant and hierarchical representations, unlike current language models that are mostly trained to make short-term and word-level predictions. Overall, modern algorithms are still far from processing language in the same way that humans do. However, the direct links between their inner workings and that of the brain provide an promising platform for better understanding both systems, and pave the way for building better algorithms inspired by the human brain.

Algorithmes et cerveau, bien que de nature extrêmement différentes, sont deux systèmes capables d'effectuer des tâches de langage complexes. En particulier, de récentes avancées en intelligence artificielle ont permis l'émergence d'algorithmes produisant des textes de qualité remarquablement similaire à ceux des humains (ChatGPT, GPT-3). De telles similarités interrogent sur la façon dont le cerveau et ces algorithmes traitent le langage, les mécanismes qu'ils utilisent et les représentations internes qu'ils construisent. Ma thèse consiste à comparer les représentations internes de ces deux systèmes, d'identifier leurs similitudes et leurs différences.Pour ce faire, nous analysons les enregistrements par imagerie fonctionnelle (fMRI) et magnéto-encéphalographie (MEG) de participants écoutant et lisant des histoires, et les comparons aux activations de milliers d'algorithmes de langage correspondant à ces mêmes histoires.Nos résultats mettent d'abord en évidence des similarités de haut niveau entre les représentations internes du cerveau et des modèles de langage. Dans une première partie, nous montrons que les activations des réseaux profonds prédisent linéairement l'activité cérébrale de sujets chez différents groupes (>500 participants), pour différentes modalités d'enregistrement (MEG et fMRI), modalités de stimulus (présentation auditive et visuelle), types de stimulus (mots isolés, phrases et histoires naturelles), langues (néerlandais et anglais) et modèles de langage. Cette correspondance est maximale dans les régions cérébrales souvent associées au langage, pour les algorithmes les plus performants et pour les participants qui comprennent le mieux les histoires. De plus, nous mettons en évidence une hiérarchie de traitement similaire entre les deux systèmes. Les premières couches des algorithmes sont alignées sur les régions de traitement de bas niveau dans le cerveau, telles que les zones auditives et le lobe temporal, tandis que les couches profondes sont alignées sur des régions associées à un traitement de plus haut niveau, notamment les zones fronto-pariétales.Nous montrons ensuite, dans une seconde partie, comment de telles similarités peuvent aider à construire de meilleurs modèles prédictifs de l'activité cérébrale, et à décomposer plus finement dans le cerveau différents processus linguistiques tels que la syntaxe et la sémantique.Enfin, dans une troisième partie, nous explorons les différences entre cerveau et algorithmes. Nous montrons que le cerveau prédit des représentations distantes et hiérarchiques, contrairement aux modèles de langage actuels qui sont principalement entraînés à faire des prédictions à court terme et au niveau du mot. Dans l'ensemble, les algorithmes modernes sont encore loin de traiter le langage de la même manière que les humains le font. Cependant, les liens directs entre leur fonctionnement interne et celui du cerveau fournissent une plateforme prometteuse pour mieux comprendre les deux systèmes, et ouvre la voie à la construction d'algorithmes plus similaires au cerveau.

Language representations in deep learning algorithms and the brain

Les représentations de langage dans les algorithmes d'apprentissage profonds et le cerveau

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager