HIT-MW Dataset for Offline Chinese Handwritten Text Recognition

Tonghua Su; Tianwen Zhang; Dejun Guan

Communication Dans Un Congrès Année : 2006

HIT-MW Dataset for Offline Chinese Handwritten Text Recognition

(1) , (1) , (2)

1
2

Tonghua Su

Fonction : Auteur
PersonId : 835645

School of Computer Science and Technology [Harbin]

Tianwen Zhang

Fonction : Auteur
PersonId : 835646

School of Computer Science and Technology [Harbin]

Dejun Guan

Fonction : Auteur
PersonId : 835647

Heilongjiang Mobile

Résumé

A Chinese handwritten text dataset, HIT-MW, is presented to facilitate the offline Chinese handwritten text recognition. Texts for handcopying are sampled from China Daily corpus with a stratified random manner. To collect naturally written handwriting, forms are distributed by postal mail or middleman instead of face to face. The current version of HIT-MW includes 853 forms and 186,444 characters that are written by more than 780 participants under an unconstrained condition without preprinted character boxes. Its lexical coverage of 3,041 characters is about 99.33% measured on China Daily corpus with about 80 million characters. Handwritten texts of HIT-MW mainly written by college students follow a balanced distribution both in sex and in department. It can be used to conduct Chinese textline segmentation, segmentation-free recognition, and to verify the effect of statistical language model in a real handwriting situation.

Mots clés

Standardization Data acquisition Optical character recognition Handwritten Chinese text

Domaines

Traitement du texte et du document Vision par ordinateur et reconnaissance de formes [cs.CV]

Fichier principal

cr1010185279718.pdf (282.17 Ko)

Anne Jaigu : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00103725

Soumis le : jeudi 5 octobre 2006-11:01:49

Dernière modification le : jeudi 5 octobre 2006-11:20:04

Archivage à long terme le : mardi 6 avril 2010-18:21:41

Dates et versions

inria-00103725 , version 1 (05-10-2006)

Identifiants

HAL Id : inria-00103725 , version 1

Citer

Tonghua Su, Tianwen Zhang, Dejun Guan. HIT-MW Dataset for Offline Chinese Handwritten Text Recognition. Tenth International Workshop on Frontiers in Handwriting Recognition, Université de Rennes 1, Oct 2006, La Baule (France). ⟨inria-00103725⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

IWFHR10

638 Consultations

972 Téléchargements

HIT-MW Dataset for Offline Chinese Handwritten Text Recognition

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager