Vers la correction automatique de textes bruités: Architecture générale et détermination de la langue d'un mot inconnu - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2012

Vers la correction automatique de textes bruités: Architecture générale et détermination de la langue d'un mot inconnu

Résumé

Towards Automatic Spell-Checking of Noisy Texts : General Architecture and Language Identification for Unknown Words. This paper deals with the problem of spell checking on degraded-quality corpora such as blogs, review sites and social networks. We propose a first architecture of correction which aims at reducing overcorrection, and we describe its implementation. We also report and discuss the results obtained thanks to the module that detects whether an unknown word from a sentence in a known language belongs to this language or not.
Dans ce papier, nous introduisons le problème que pose la correction orthographique sur des corpus de qualité très dégradée tels que les messages publiés sur les forums, les sites d'avis ou les réseaux sociaux. Nous proposons une première architecture de correction qui a pour objectif d'éviter au maximum la sur-correction. Nous présentons, par ailleurs l'implémentation et les résultats d'un des modules de ce système qui a pour but de détecter si un mot inconnu, dans une phrase de langue connue, est un mot qui appartient à cette langue ou non.
Fichier principal
Vignette du fichier
recital12marion.pdf (122.61 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00701400 , version 1 (25-05-2012)

Identifiants

  • HAL Id : hal-00701400 , version 1

Citer

Marion Baranes. Vers la correction automatique de textes bruités: Architecture générale et détermination de la langue d'un mot inconnu. RECITAL'2012 - Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, Jun 2012, Grenoble, France. pp.95-108. ⟨hal-00701400⟩
287 Consultations
1528 Téléchargements

Partager

Gmail Facebook X LinkedIn More