Parsing Punctuation and Coordination Extragrammatically - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Mémoires D'étudiants -- Hal-Inria+ Année : 2010

Parsing Punctuation and Coordination Extragrammatically

Valmi Dufour-Lussier
  • Fonction : Auteur
  • PersonId : 874752

Résumé

Coordination is a syntactic construction that is extremely frequent in natural language and yet very difficult to analyse: it is highly ambiguous, as different types of constituents and non-constituents can be coordinated in different contexts, and it cannot be easily modelled using the same formal tools used to represent the "basic", coordination-less part of natural languages. As for punctuation, often neglected as an object of study by linguists because it is peculiar to written language, it can combine with or substitute conjunctions to play a coordinative role, or play an adjunctive role. Some researchers propose that coordination is not a grammatical phenomenon that is a matter of linguistic competence, but rather a performance issue that should be analysed directly among the syntactic structures. We suggest to use this idea to the benefit of natural language processing by defining an algorithm that deals with coordination and punctuation using graph transformations applied directly to the output of a parser based on a model of "basic" language. The syntactic structure of a sentence as proposed by our system takes the shape of a directed acyclic graph in which the constituent sharing phenomenon at the roots of coordination appears sharply. We detail an algorithm working within the framework of interaction grammars (but suggest ways to adapt it to other formalisms, namely tree-adjoining grammars, phrase structure grammars, and dependency syntax) which is able to parse many types of coordinative and adjunctive constructions.
La coordination est une construction syntaxique extrêmement fréquente dans les langues naturelles et néanmoins très difficile à analyser : elle est hautement ambiguë, de nombreux types de constituants ou non-constituants pouvant être coordonnés dans différents contextes, et se prête difficilement à une modélisation à l'aide des outils formels employés pour représenter la portion " basique " des langues naturelles, c'est-à-dire dépourvue de coordination. Quant à la ponctuation, objet d'étude souvent occulté par la linguistique car étant propre au langage écrit, elle peut se combiner ou se substituer aux conjonctions pour jouer un rôle coordinatif, ou encore jouer un rôle adjonctif. Certains chercheurs avancent que la coordination ne constitue pas un phénomène grammatical relevant de la compétence linguistique, mais plutôt un fait de performance qui devrait s'analyser au sein même des structures syntaxiques. Nous nous proposons de reprendre cette idée au compte du traitement automatique des langues en définissant un algorithme de traitement de la coordination et de la ponctuation qui opère un processus de transformation de graphes sur la sortie d'un analyseur basé sur un modèle de langage " basique ". La structure syntaxique d'une phrase telle que proposée par notre système prend la forme d'un graphe acyclique orienté, dans lequel apparaît clairement le phénomène de partage de constituants qui définit la nature de la coordination. Nous détaillons un algorithme dans le cadre des grammaires d'interaction, mais pouvant être étendu à d'autres formalismes (nommément les grammaires d'arbres adjoints, les grammaires de structures de phrase et la syntaxe de dépendance), qui permet d'analyser de nombreux types de constructions coordinatives et adjonctives. Nous comparons celui-ci à une approche classique de modélisation de la coordination dans le formalisme des grammaires d'interaction développée par Le Roux et Perrier (2006) puis à une approche similaire à la nôtre développée dans le cadre des grammaires d'arbres adjoints par Joshi et Schabes (1991).
Fichier non déposé

Dates et versions

inria-00634736 , version 1 (22-10-2011)

Identifiants

  • HAL Id : inria-00634736 , version 1

Citer

Valmi Dufour-Lussier. Parsing Punctuation and Coordination Extragrammatically. Artificial Intelligence [cs.AI]. 2010. ⟨inria-00634736⟩
77 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More