Identification automatique des relations discursives "implicites" à partir de données annotées et de corpus bruts

Chloé Braud; Pascal Denis

Communication Dans Un Congrès Année : 2013

Identification automatique des relations discursives "implicites" à partir de données annotées et de corpus bruts

(1) , (2)

1
2

Chloé Braud

Fonction : Auteur
PersonId : 179583
IdHAL : chloe-braud
ORCID : 0000-0002-1874-3430
IdRef : 195813219

Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing

Pascal Denis

Fonction : Auteur
PersonId : 1744
IdHAL : pascal-denis
IdRef : 031934684

Machine Learning in Information Networks

Résumé

This paper presents a system for identifying \og implicit\fg discourse relations (that is, relations that are not marked by a discourse connective). Given the little amount of available annotated data for this task, our system also resorts to additional automatically labeled data wherein unambiguous connectives have been suppressed and used as relation labels, a method introduced by [Marcu & Echihabi 2002]. As shown by [Sporleder & Lascarides 2008] for English, this approach doesn't generalize well to implicit relations as annotated by humans. We show that the same conclusion applies to French due to important distribution differences between the two types of data. In consequence, we propose various simple methods, all inspired from work on domain adaptation, with the aim of better combining annotated data and artificial data. We evaluate these methods through various experiments carried out on the ANNODIS corpus: our best system reaches a labeling accuracy of 45.6%, corresponding to a 5.9% significant gain over a system solely trained on manually labeled data.

Cet article présente un système d'identification des relations discursives dites "implicites" (à savoir, non explicitement marquées par un connecteur) pour le français. Etant donné le faible volume de données annotées disponibles, notre système s'appuie sur des données étiquetées automatiquement en supprimant les connecteurs non ambigus pris comme annotation d'une relation, une méthode introduite par [Marcu & Echihabi 2002]. Comme l'ont montré [Sporleder & Lascarides 2008] pour l'anglais, cette approche ne généralise pas très bien aux exemples de relations implicites tels qu'annotés par des humains. Nous arrivons au même constat pour le français et, partant du principe que le problème vient d'une différence de distribution entre les deux types de données, nous proposons une série de méthodes assez simples, inspirées par l'adaptation de domaine, qui visent à combiner efficacement données annotées et données artificielles. Nous évaluons empiriquement les différentes approches sur le corpus ANNODIS : nos meilleurs résultats sont de l'ordre de 45.6% d'exactitude, avec un gain significatif de 5.9% par rapport à un système n'utilisant que les données annotées manuellement.

Mots clés

discourse analysis implicit relations machine learning

Domaines

Linguistique Informatique et langage [cs.CL] Machine Learning [stat.ML]

Fichier principal

identificationAuto-Braud-Denis.pdf (178.26 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Chloé Braud : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-00830983

Soumis le : jeudi 6 juin 2013-11:09:40

Dernière modification le : vendredi 24 mars 2023-14:52:57

Archivage à long terme le : mardi 4 avril 2017-17:46:43

Dates et versions

hal-00830983 , version 1 (06-06-2013)

Identifiants

HAL Id : hal-00830983 , version 1

Citer

Chloé Braud, Pascal Denis. Identification automatique des relations discursives "implicites" à partir de données annotées et de corpus bruts. TALN - 20ème conférence du Traitement Automatique du Langage Naturel 2013, Jun 2013, Sables d'Olonne, France. pp.104-117. ⟨hal-00830983⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-PARIS7 UNIV-LILLE3 CNRS INRIA CRISTAL INRIA2 CRISTAL-MAGNET CAMPUS-AAR AAI

655 Consultations

957 Téléchargements

Identification automatique des relations discursives "implicites" à partir de données annotées et de corpus bruts

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager