Détection et correction automatique d'entités nommées dans des corpus OCRisés

Benoît Sagot; Kata Gábor

Communication Dans Un Congrès Année : 2014

Détection et correction automatique d'entités nommées dans des corpus OCRisés

(1) , (1)

Benoît Sagot

Fonction : Auteur
PersonId : 1461
IdHAL : bsagot
ORCID : 0000-0002-0107-8526
IdRef : 177454229

Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing

Kata Gábor

Fonction : Auteur

Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing

Résumé

Correction of textual data obtained by optical character recognition (OCR) for reaching editorial quality is an expensive task, as it still involves human intervention. The coverage of statistical models for automated error detection and correction is inherently limited to errors that resort to general language. However, a large amount of errors reside in domain-specific named entities, especially when dealing with data such as patent corpora or legal texts. In this paper, we propose a rule-based architecture for the identification and correction of a wide range of named entities (proper names not included). We show that our architecture achieves a good recall and an excellent correction accuracy on error types that are difficult to adress with statistical approaches.

La correction de données textuelles obtenues par reconnaissance optique de caractères (OCR) pour at- teindre une qualité éditoriale reste aujourd'hui une tâche coûteuse, car elle implique toujours une intervention humaine. La détection et la correction automatiques d'erreurs à l'aide de modèles statistiques ne permettent de traiter de façon utile que les erreurs relevant de la langue générale. C'est pourtant dans certaines entités nommées que résident les erreurs les plus nombreuses, surtout dans des données telles que des corpus de brevets ou des textes juridiques. Dans cet article, nous proposons une architecture d'identification et de correction par règles d'un large éventail d'entités nommées (non compris les noms propres). Nous montrons que notre architecture permet d'atteindre un bon rappel et une excellente précision en correction, ce qui permet de traiter des fautes difficiles à traiter par les approches statistiques usuelles.

Domaines

Informatique et langage [cs.CL]

Fichier principal

taln14pacte_short.pdf (137.16 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Benoît Sagot : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01022378

Soumis le : jeudi 10 juillet 2014-12:27:25

Dernière modification le : jeudi 15 février 2024-03:31:25

Archivage à long terme le : vendredi 10 octobre 2014-11:36:57

Dates et versions

hal-01022378 , version 1 (10-07-2014)

Identifiants

HAL Id : hal-01022378 , version 1

Citer

Benoît Sagot, Kata Gábor. Détection et correction automatique d'entités nommées dans des corpus OCRisés. Traitement Automatique du Langage Naturel 2014, Jul 2014, Marseille, France. ⟨hal-01022378⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-PARIS7 UNIV-RENNES1 INRIA IRISA INRIA2 CAMPUS-AAR AAI UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM

354 Consultations

2966 Téléchargements

Détection et correction automatique d'entités nommées dans des corpus OCRisés

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager