Détection et correction automatique d'entités nommées dans des corpus OCRisés - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2014

Détection et correction automatique d'entités nommées dans des corpus OCRisés

Résumé

Correction of textual data obtained by optical character recognition (OCR) for reaching editorial quality is an expensive task, as it still involves human intervention. The coverage of statistical models for automated error detection and correction is inherently limited to errors that resort to general language. However, a large amount of errors reside in domain-specific named entities, especially when dealing with data such as patent corpora or legal texts. In this paper, we propose a rule-based architecture for the identification and correction of a wide range of named entities (proper names not included). We show that our architecture achieves a good recall and an excellent correction accuracy on error types that are difficult to adress with statistical approaches.
La correction de données textuelles obtenues par reconnaissance optique de caractères (OCR) pour at- teindre une qualité éditoriale reste aujourd'hui une tâche coûteuse, car elle implique toujours une intervention humaine. La détection et la correction automatiques d'erreurs à l'aide de modèles statistiques ne permettent de traiter de façon utile que les erreurs relevant de la langue générale. C'est pourtant dans certaines entités nommées que résident les erreurs les plus nombreuses, surtout dans des données telles que des corpus de brevets ou des textes juridiques. Dans cet article, nous proposons une architecture d'identification et de correction par règles d'un large éventail d'entités nommées (non compris les noms propres). Nous montrons que notre architecture permet d'atteindre un bon rappel et une excellente précision en correction, ce qui permet de traiter des fautes difficiles à traiter par les approches statistiques usuelles.
Fichier principal
Vignette du fichier
taln14pacte_short.pdf (137.16 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01022378 , version 1 (10-07-2014)

Identifiants

  • HAL Id : hal-01022378 , version 1

Citer

Benoît Sagot, Kata Gábor. Détection et correction automatique d'entités nommées dans des corpus OCRisés. Traitement Automatique du Langage Naturel 2014, Jul 2014, Marseille, France. ⟨hal-01022378⟩
354 Consultations
2966 Téléchargements

Partager

Gmail Facebook X LinkedIn More