Exploring Data Provenance in Handwritten Text Recognition Infrastructure: Sharing and Reusing Ground Truth Data, Referencing Models, and Acknowledging Contributions. Starting the Conversation on How We Could Get It Done - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Pré-Publication, Document De Travail Année : 2023

Exploring Data Provenance in Handwritten Text Recognition Infrastructure: Sharing and Reusing Ground Truth Data, Referencing Models, and Acknowledging Contributions. Starting the Conversation on How We Could Get It Done

Tobias Hodel
Helle Strandgaard Jensen
Andy Stauder
Melissa Terras
Achim Rabus
Katrien Depuydt
Dorothee Huff
Joe Nockels
Laura Noort
  • Fonction : Auteur
Joost Johannes Oosterhuis
Vivien Popken
  • Fonction : Auteur
María Estrella Puertollano
  • Fonction : Auteur
Joosep Puusaag
  • Fonction : Auteur
Ahmed Sheta
  • Fonction : Auteur
Lex Stoop
  • Fonction : Auteur
Ebba Strutzenbladh
  • Fonction : Auteur
Nicoline van Der Sijs
Jan Paul van Der Spek
  • Fonction : Auteur
Barry Benaissa Trouw
  • Fonction : Auteur
Geertrui van Synghel
  • Fonction : Auteur
Vladimir Vučković
  • Fonction : Auteur
Heleen Wilbrink
  • Fonction : Auteur
Sonia Weiss
  • Fonction : Auteur
David Joseph Wrisley
Riet Zweistra
  • Fonction : Auteur

Résumé

This paper discusses best practices for sharing and reusing Ground Truth in Handwritten Text Recognition infrastructures, as well as ways to reference and acknowledge contributions to the creation and enrichment of data within these systems. We discuss how one can place Ground Truth data in a repository and, subsequently, inform others through HTR-United. Furthermore, we want to suggest appropriate citation methods for ATR data, models, and contributions made by volunteers. Moreover, when using digitised sources (digital facsimiles), it becomes increasingly important to distinguish between the physical object and the digital collection. These topics all relate to the proper acknowledgement of labour put into digitising, transcribing, and sharing Ground Truth HTR data. This also points to broader issues surrounding the use of machine learning in archival and library contexts, and how the community should begin to acknowledge and record both contributions and data provenance.
Fichier principal
Vignette du fichier
Exploring_Data_Provenance (5).pdf (3.8 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Licence : CC BY - Paternité

Dates et versions

hal-04244372 , version 1 (16-10-2023)

Licence

Paternité

Identifiants

Citer

C. Annemieke Romein, Tobias Hodel, Femke Gordijn, Joris Zundert, Alix Chagué, et al.. Exploring Data Provenance in Handwritten Text Recognition Infrastructure: Sharing and Reusing Ground Truth Data, Referencing Models, and Acknowledging Contributions. Starting the Conversation on How We Could Get It Done. 2023. ⟨hal-04244372⟩
29 Consultations
45 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More