Joint building of a corpus and a classifier for language registers in French - Archive ouverte HAL Access content directly
Conference Papers Year :

Joint building of a corpus and a classifier for language registers in French

Construction conjointe d'un corpus et d'un classifieur pour les registres de langue en français

(1) , (1) , (1) , (1, 2) , (1) , (2) , (1)
1
2

Abstract

Joint building of a corpus and a classifier for language registers in French. Language registers are an observable stylistic trait of texts and speeches. However, they are still poorly studied in natural language processing. In this paper, we present a semi-supervised approach which jointly builds a corpus of texts labeled in registers and an associated classifier. This approach is based on an initial and limited set of expert data. Using an massive automatically retrieved collection of web pages, it iteratively proceeds by alternating the learning of an intermediate classifier and the annotation of new texts to augment the labeled corpus. We apply this approach to formal, neutral, and informal registers. At the end of the process, the labeled corpus gathers 800, 000 texts, and the classifier, a neural network, has an accuracy of 87 %.
Les registres de langue sont un trait stylistique marquant dans l'appréciation d'un texte ou d'un discours. Cependant, il sont encore peu étudiés en traitement automatique des langues. Dans cet article, nous présentons une approche semi-supervisée permettant la construction conjointe d'un corpus de textes étiquetés en registres et d'un classifieur associé. Cette approche s'appuie sur un ensemble initial et restreint de données expertes. Via une collecte automatique et massive de pages web, l'approche procède par itérations en alternant l'apprentissage d'un classifieur intermédiaire et l'annotation de nouveaux textes pour augmenter le corpus étiqueté. Nous appliquons cette approche aux registres familier, courant et soutenu. À l'issue du processus de construction, le corpus étiqueté regroupe 800 000 textes et le classifieur, un réseau de neurones, présente un taux de bonne classification de 87 %.
Fichier principal
Vignette du fichier
registres_de_langue.pdf (270.93 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

hal-02002601 , version 1 (31-01-2019)

Identifiers

  • HAL Id : hal-02002601 , version 1

Cite

Gwénolé Lecorvé, Hugo Ayats, Benoît Fournier, Jade Mekki, Jonathan Chevelu, et al.. Construction conjointe d'un corpus et d'un classifieur pour les registres de langue en français. Traitement automatique du langage naturel (TALN), May 2018, Rennes, France. ⟨hal-02002601⟩
234 View
190 Download

Share

Gmail Facebook Twitter LinkedIn More