Semantics and Discourse: from modelling to interpretation - Archive ouverte HAL Access content directly
Habilitation À Diriger Des Recherches Year : 2016

Semantics and Discourse: from modelling to interpretation

Sémantique et discours - de la modélisation à l'interprétation

(1)
1
Maxime Amblard

Abstract

Our research is concerned with computational linguistics, proposing computational tools and techniques for natural language processing. Our research activity is spread over two areas : 1. semantic modeling using formal and logical approaches. We define gram- mars that respect Frege’s compositionality principle, following the ideas of Mon- tague semantics and inspired by (de Groote 2006), who introduced a theory of dynamics based on the λ-calculus. 2. the confrontation of these models of semantics and discourse to empiri- cal data extracted from pathological uses in conversations between schizophrenics and psychologists. First, we look back on our work in semantic modeling. We proposed a framework for the syntax-semantics interface in the context of Chomsky’s generative theory. The grammars, which we call Minimalist Categorical Grammars (MCG), are based on an extension of Lambek grammar, (Lambek 1958), and they coordinate the syntactic and the semantic calculus by a correspondence on types (based on the λ-calculus). This framework has later enabled us to linguistically interpret the commutative properties of the underlying logic. We then worked on semantic representations, which led us to supervise two PhDs with Philippe de Groote. In his PhD, Sai Qian proposed a model of events, negation and modal subordination. The solution to address these problems has been to consider all of them as phenomena of the accessibility of variables in dynamic semantics. For this, Sai has deeply expanded the notion of context (de Groote 2006). As a result, we were interested in unifying the treatments in a single setting. In his PhD, Jirka Maršík has defined a calculus inspired by modern programming languages, particularly the use of effects and handlers. The resulting calculus allows us to simu- late different orders of evaluation, and thus give flexibility to the context. Jirka has first studied the properties of his calculus and proven subject reduction, confluence and ter- mination. Second, he showed how to use it to account for different linguistic phenomena. In the second part, we questioned the adequacy of these formal approaches and their use in solving empirical problems. We carried out a field study modeling conversations between schizophrenics and psychologists, which resulted in the SLAM project (Schizo- phrenia and Language : Analysis and Modeling). In these interviews, we found exchanges whose semantic or pragmatic interpretation was difficult or impossible. The idea was to use logical formalisms for the representation of speech to question these dysfunctions. When studying these interviews, it seemed appropriate to analyze other levels than semantics. We implemented automatic processing tools for our data to analyze disfluency production and the distribution of part-of-speech tags. We were able to confirm that schizophrenics produced more disfluencies than interlocutors from the control group. Finally, we worked on the use of explicit markers of discourse relations in information retrieval. The final part of the Report highlights our research perspectives that propose to unify the two previous axes. That is, to reconcile computational semantics with its applica- tions in the field of cognitive science. We would primarily develop semantic grammars and formal models of dialogue.
Les travaux présentés se situent dans le champ de la linguistique computationnelle. Nous proposons des outils et méthodes informatiques pour le traitement de la langue naturelle. Nos activités de recherche se répartissent selon deux axes : 1. la modélisation sémantique par des approches formelles et logiques. Pour cela nous définissons des grammaires respectant le principe de compositionnalité de Frege, s’inscrivant dans la continuité des propositions de Montague, et inspirées par (de Groote 2006) qui propose un calcul sémantique basé sur le λ-calcul simulant la dynamicité. 2. la confrontation de ces modèles sémantiques et discursifs à des données empiriques extraites d’usages pathologiques identifiés dans des entretiens entre des patients schizophrènes et des psychologues. Dans la première partie, nous revenons sur nos travaux en modélisation sémantique. Nous avons été conduits à proposer un formalisme rendant compte de l’interface syntaxe- sémantique pour la théorie générative de Chomsky. Ces grammaires, appelées grammaires minimalistes catégorielles, sont basées sur une extension des grammaires de Lambek, (Lambek 1958), et synchronisent un calcul sémantique au calcul syntaxique par une correspondance entre les types, en s’appuyant sur le λ-calcul. Ce cadre nous a par la suite permis d’interpréter linguistiquement les propriétés de commutativité. Nous avons ensuite travaillé à la représentation sémantique, ce qui nous a conduit à encadrer deux thèses avec Philippe de Groote. Dans sa thèse, Sai Qian a cherché à modéliser les notions d’événements, de négation et de subordination modale. Une solution pour traiter ces problèmes a été de les envisager comme des problèmes d’accessibilité de variables dans un cadre dynamique. Il a pour cela profondément étendu la notion de contexte de (de Groote 2006). Nous nous sommes ensuite employés à unifier les traitements dans un unique cadre. Pour cela, Jirka Maršík a, dans sa thèse, proposé un calcul inspiré des propriétés des langages de programmation modernes, notamment les effets algébriques (effects et handlers). Ce calcul permet de simuler différents ordres d’évaluation, et donc de gérer de manière flexible la notion de contexte. Jirka Maršík a d’une part étudié les propriétés du calcul et prouvé la préservation de types, la confluence et la terminaison, et d’autre part il a montré comment rendre compte de différents phénomènes linguistiques. Dans la seconde partie, nous nous sommes interrogés sur l’adéquation de ces approches formelles et leur utilisation pour résoudre des problèmes empiriques. La modélisation d’entretiens entre des patients schizophrènes et des psychologues a été le terrain d’étude qui s’est présenté et cela a donné lieu au projet SLAM (Schizophrénie et Langage : Analyse et Modélisation). Dans ces entretiens, nous avons identifié des échanges dont l’interprétation sémantique ou pragmatique était difficile voire impossible. Le principe a été d’utiliser des formalismes logiques pour la représentation du discours afin d’interroger ces dysfonctionnements. En étudiant ces entretiens, il nous est apparu pertinent de les analyser sur d’autres niveaux que la sémantique. Nous avons mis en œuvre des outils du traitement automatique des langues sur nos données pour analyser les productions de disfluences, ainsi que la répartition des catégories morpho-syntaxiques. Nous avons ainsi pu identifier que les schizophrènes produisaient plus de disfluences que les interlocuteurs du groupe contrôle. Finalement, nous avons travaillé à l’utilisation des marqueurs explicites de relations de discours dans des tâches d’extraction d’informations. La partie finale de ce document revient sur nos perspectives de recherche qui proposent d’unifier les deux axes précédents. Il s’agit de parvenir à réconcilier la vision calculatoire de la modélisation sémantique avec ses applications dans des perspectives des sciences cognitives. Nous souhaitons principalement développer des grammaires sémantiques et la modélisation formelle des dialogues.
Fichier principal
Vignette du fichier
hdr.pdf (6.21 Mo) Télécharger le fichier
Loading...

Dates and versions

tel-01415967 , version 1 (13-12-2016)
tel-01415967 , version 2 (15-12-2016)

Identifiers

  • HAL Id : tel-01415967 , version 2

Cite

Maxime Amblard. Sémantique et discours - de la modélisation à l'interprétation. Informatique [cs]. Université de Lorraine (Nancy), 2016. ⟨tel-01415967v2⟩
702 View
1344 Download

Share

Gmail Facebook Twitter LinkedIn More