Identification automatique des relations discursives "implicites" à partir de données annotées et de corpus bruts

Chloé Braud 1 Pascal Denis 2
1 ALPAGE - Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing
Inria Paris-Rocquencourt, UPD7 - Université Paris Diderot - Paris 7
2 MAGNET - Machine Learning in Information Networks
LIFL - Laboratoire d'Informatique Fondamentale de Lille, Inria Lille - Nord Europe
Résumé : Cet article présente un système d'identification des relations discursives dites "implicites" (à savoir, non explicitement marquées par un connecteur) pour le français. Etant donné le faible volume de données annotées disponibles, notre système s'appuie sur des données étiquetées automatiquement en supprimant les connecteurs non ambigus pris comme annotation d'une relation, une méthode introduite par [Marcu & Echihabi 2002]. Comme l'ont montré [Sporleder & Lascarides 2008] pour l'anglais, cette approche ne généralise pas très bien aux exemples de relations implicites tels qu'annotés par des humains. Nous arrivons au même constat pour le français et, partant du principe que le problème vient d'une différence de distribution entre les deux types de données, nous proposons une série de méthodes assez simples, inspirées par l'adaptation de domaine, qui visent à combiner efficacement données annotées et données artificielles. Nous évaluons empiriquement les différentes approches sur le corpus ANNODIS : nos meilleurs résultats sont de l'ordre de 45.6% d'exactitude, avec un gain significatif de 5.9% par rapport à un système n'utilisant que les données annotées manuellement.
Type de document :
Communication dans un congrès
TALN - 20ème conférence du Traitement Automatique du Langage Naturel 2013, Jun 2013, Sables d'Olonne, France. 1, pp.104-117, 2013, TALN-RECITAL 2013
Liste complète des métadonnées

Littérature citée [19 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00830983
Contributeur : Chloé Braud <>
Soumis le : jeudi 6 juin 2013 - 11:09:40
Dernière modification le : vendredi 25 mai 2018 - 12:02:05
Document(s) archivé(s) le : mardi 4 avril 2017 - 17:46:43

Fichier

identificationAuto-Braud-Denis...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00830983, version 1

Citation

Chloé Braud, Pascal Denis. Identification automatique des relations discursives "implicites" à partir de données annotées et de corpus bruts. TALN - 20ème conférence du Traitement Automatique du Langage Naturel 2013, Jun 2013, Sables d'Olonne, France. 1, pp.104-117, 2013, TALN-RECITAL 2013. 〈hal-00830983〉

Partager

Métriques

Consultations de la notice

695

Téléchargements de fichiers

450