Skip to Main content Skip to Navigation
Conference papers

Construction conjointe d'un corpus et d'un classifieur pour les registres de langue en français

Résumé : Les registres de langue sont un trait stylistique marquant dans l'appréciation d'un texte ou d'un discours. Cependant, il sont encore peu étudiés en traitement automatique des langues. Dans cet article, nous présentons une approche semi-supervisée permettant la construction conjointe d'un corpus de textes étiquetés en registres et d'un classifieur associé. Cette approche s'appuie sur un ensemble initial et restreint de données expertes. Via une collecte automatique et massive de pages web, l'approche procède par itérations en alternant l'apprentissage d'un classifieur intermédiaire et l'annotation de nouveaux textes pour augmenter le corpus étiqueté. Nous appliquons cette approche aux registres familier, courant et soutenu. À l'issue du processus de construction, le corpus étiqueté regroupe 800 000 textes et le classifieur, un réseau de neurones, présente un taux de bonne classification de 87 %.
Complete list of metadatas

Cited literature [31 references]  Display  Hide  Download

https://hal.inria.fr/hal-02002601
Contributor : Gwénolé Lecorvé <>
Submitted on : Thursday, January 31, 2019 - 6:00:45 PM
Last modification on : Monday, March 30, 2020 - 1:38:04 PM
Document(s) archivé(s) le : Wednesday, May 1, 2019 - 6:18:11 PM

File

registres_de_langue.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-02002601, version 1

Citation

Gwénolé Lecorvé, Hugo Ayats, Benoît Fournier, Jade Mekki, Jonathan Chevelu, et al.. Construction conjointe d'un corpus et d'un classifieur pour les registres de langue en français. Traitement automatique du langage naturel (TALN), May 2018, Rennes, France. ⟨hal-02002601⟩

Share

Metrics

Record views

132

Files downloads

109