Détection et correction automatique d'entités nommées dans des corpus OCRisés

Benoît Sagot 1 Kata Gábor 1
1 ALPAGE - Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing
Inria Paris-Rocquencourt, UPD7 - Université Paris Diderot - Paris 7
Résumé : La correction de données textuelles obtenues par reconnaissance optique de caractères (OCR) pour at- teindre une qualité éditoriale reste aujourd'hui une tâche coûteuse, car elle implique toujours une intervention humaine. La détection et la correction automatiques d'erreurs à l'aide de modèles statistiques ne permettent de traiter de façon utile que les erreurs relevant de la langue générale. C'est pourtant dans certaines entités nommées que résident les erreurs les plus nombreuses, surtout dans des données telles que des corpus de brevets ou des textes juridiques. Dans cet article, nous proposons une architecture d'identification et de correction par règles d'un large éventail d'entités nommées (non compris les noms propres). Nous montrons que notre architecture permet d'atteindre un bon rappel et une excellente précision en correction, ce qui permet de traiter des fautes difficiles à traiter par les approches statistiques usuelles.
Type de document :
Communication dans un congrès
Traitement Automatique du Langage Naturel 2014, Jul 2014, Marseille, France. 2014
Liste complète des métadonnées

Littérature citée [12 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01022378
Contributeur : Benoît Sagot <>
Soumis le : jeudi 10 juillet 2014 - 12:27:25
Dernière modification le : mercredi 12 octobre 2016 - 01:23:59
Document(s) archivé(s) le : vendredi 10 octobre 2014 - 11:36:57

Fichier

taln14pacte_short.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01022378, version 1

Collections

Citation

Benoît Sagot, Kata Gábor. Détection et correction automatique d'entités nommées dans des corpus OCRisés. Traitement Automatique du Langage Naturel 2014, Jul 2014, Marseille, France. 2014. 〈hal-01022378〉

Partager

Métriques

Consultations de la notice

290

Téléchargements de fichiers

720