Identification de descripteurs pour la caractérisation de registres - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2018

Feature identification for register characterization

Identification de descripteurs pour la caractérisation de registres

Résumé

The paper presents a study of linguistic features for the characterization of a text according to its language register (formal, neutral, informal). This study aims at laying a first milestones for future work on this subject (e.g., classification, discriminating patterns extraction, etc.). From a state of the art conducted on the notion of register in linguistics and sociolinguistics, we have identified a list of 72 relevant descriptors. In this paper, we present the first 30 ones that we could validate on a corpus of French texts from distinct registers. MOTS-CLÉS : registres de langue, descripteur linguistique, validation.
L'article présente une étude des descripteurs linguistiques pour la caractérisation d'un texte selon son registre de langue (familier, courant, soutenu). Cette étude a pour but de poser un premier jalon pour des tâches futures sur le sujet (classification, extraction de motifs discriminants). À partir d'un état de l'art mené sur la notion de registre dans la littérature linguistique et sociolinguistique, nous avons identifié une liste de 72 descripteurs pertinents. Dans cet article, nous présentons les 30 premiers que nous avons pu valider sur un corpus de textes français de registres distincts.
Fichier principal
Vignette du fichier
paper 9.pdf (117.48 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02002612 , version 1 (31-01-2019)

Identifiants

  • HAL Id : hal-02002612 , version 1

Citer

Jade Mekki, Delphine Battistelli, Gwénolé Lecorvé, Nicolas Béchet. Identification de descripteurs pour la caractérisation de registres. Rencontre des jeunes chercheurs en traitement automatique du langage naturel et recherche d'information (CORIA-TALN-RJC), May 2018, Rennes, France. ⟨hal-02002612⟩
234 Consultations
631 Téléchargements

Partager

Gmail Facebook X LinkedIn More