Identification automatique des relations discursives implicites à partir de corpus annotés et de données brutes

Chloé Braud 1
1 ALPAGE - Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing
Inria Paris-Rocquencourt, UPD7 - Université Paris Diderot - Paris 7
Résumé : Le développement de systèmes d’analyse discursive automatique des documents est un enjeu actuel majeur en Traitement Automatique des Langues. La difficulté principale correspond à l’étape d’identification des relations (comme Explication, Contraste . . .) liant les segments constituant le document. En particulier, l’identification des relations dites implicites, c’est-à-dire non marquées par un connecteur discursif (comme mais, parce que . . .), est réputée difficile car elle nécessite la prise en compte d’indices variés et correspond à des difficultés particulières dans le cadre d’un système de classification automatique. Dans cette thèse, nous utilisons des données brutes pour améliorer des systèmes d’identification automatique des relations implicites. Nous proposons d’abord d’utiliser les connecteurs pour annoter automatiquement de nouvelles don- nées. Nous mettons en place des stratégies issues de l’adaptation de domaine qui nous permettent de gérer les différences en termes distributionnels entre données annotées automatiquement et manuellement : nous rapportons des améliorations pour des systèmes construits sur le corpus français ANNODIS et sur le corpus anglais du Penn Discourse Treebank. Ensuite, nous proposons d’utiliser des représentations de mots acquises à partir de données brutes, éventuellement annotées automatiquement en connecteurs, pour enrichir la représentation des données fondées sur les mots présents dans les segments à lier. Nous rapportons des améliorations sur le corpus anglais du Penn Discourse Treebank et montrons notamment que cette méthode permet de limiter le recours à des ressources riches, disponibles seulement pour peu de langues.
Type de document :
Thèse
Linguistique. Universite Paris Diderot-Paris VII, 2015. Français
Liste complète des métadonnées

Littérature citée [216 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01256884
Contributeur : Chloé Braud <>
Soumis le : vendredi 15 janvier 2016 - 14:39:37
Dernière modification le : jeudi 15 novembre 2018 - 20:27:26
Document(s) archivé(s) le : vendredi 11 novembre 2016 - 07:48:26

Identifiants

  • HAL Id : tel-01256884, version 1

Collections

Citation

Chloé Braud. Identification automatique des relations discursives implicites à partir de corpus annotés et de données brutes. Linguistique. Universite Paris Diderot-Paris VII, 2015. Français. 〈tel-01256884〉

Partager

Métriques

Consultations de la notice

577

Téléchargements de fichiers

687