Normalisation orthographique de corpus bruités

Résumé : Les messages publiés par les internautes comportent un intérêt stratégique pour les entreprises. Néanmoins, peu d’outils ont été conçus pour faciliter l'analyse de ces messages souvent bruités. Cette thèse, réalisée au sein de l'entreprise viavoo, veut améliorer les résultats d’un outil d'extraction d'information qui fait abstraction de la variabilité flexionnelle. Nous avons ainsi développé une chaîne de traitements pour la normalisation orthographique de textes bruités. Notre approche consiste tout d'abord à déterminer automatiquement, parmi les tokens du corpus traité qui sont inconnus d'un lexique, ceux qui résultent d’altérations et qu'il conviendrait de normaliser, par opposition aux autres (néologismes, emprunts...). Des candidats de normalisation sont alors proposés pour ces tokens à l'aide de règles pondérées obtenues par des techniques d'apprentissage par analogie. Nous identifions ensuite des tokens connus du lexique qui résultent néanmoins d’une altération (fautes grammaticales), et proposons des candidats de normalisation pour ces tokens. Enfin, des modèles de langue permettent de prendre en compte le contexte dans lequel apparaissent les différents types d'altérations pour lesquels des candidats de normalisation ont été proposés afin de choisir les plus probables. Différentes expériences et évaluations sont réalisées sur le français à chaque étape et sur la chaîne complète. Une attention particulière a été portée au caractère faiblement dépendant de la langue des modules développés, ce qui permet d'envisager son adaptation à d'autres langues européennes.
Type de document :
Thèse
Linguistique. Université Paris-Diderot - Paris VII, 2015. Français
Liste complète des métadonnées

Littérature citée [207 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01226159
Contributeur : Marion Baranes <>
Soumis le : dimanche 8 novembre 2015 - 21:49:31
Dernière modification le : vendredi 25 mai 2018 - 12:02:05
Document(s) archivé(s) le : mardi 9 février 2016 - 10:58:39

Identifiants

  • HAL Id : tel-01226159, version 1

Collections

Citation

Marion Baranes. Normalisation orthographique de corpus bruités. Linguistique. Université Paris-Diderot - Paris VII, 2015. Français. 〈tel-01226159〉

Partager

Métriques

Consultations de la notice

442

Téléchargements de fichiers

660