Building Parallel Corpora from Movies

Caroline Lavecchia; Kamel Smaïli; David Langlois

Communication Dans Un Congrès Année : 2007

Building Parallel Corpora from Movies

(1) , (1) , (1)

Caroline Lavecchia

Fonction : Auteur

Analysis, perception and recognition of speech

Kamel Smaïli

Fonction : Auteur
PersonId : 2521
IdHAL : kamel-smaili
IdRef : 034429700

Analysis, perception and recognition of speech

David Langlois

Fonction : Auteur
PersonId : 298
IdHAL : david-langlois
IdRef : 070239509

Analysis, perception and recognition of speech

Résumé

This paper proposes to use DTW to construct parallel corpora from difficult data. Parallel corpora are considered as raw material for machine translation (MT), frequently, MT systems use European or Canadian parliament corpora. In order to achieve a realistic machine translation system, we decided to use movie subtitles. These data could be considered difficult because they contain unfamiliar expressions, abbreviations, hesitations, words which do not exist in classical dictionaries (as vulgar words), etc. The obtained parallel corpora can constitute a rich ressource to train decoding spontaneous speech translation system. From 40 movies, we align 43013 English subtitles with 42306 French subtitles. This leads to 37625 aligned pairs with a precision of 92,3%.

Domaines

Informatique et langage [cs.CL]

Fichier principal

nlpcs07.pdf (295.96 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Caroline Lavecchia : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00155787

Soumis le : mardi 19 juin 2007-11:24:26

Dernière modification le : vendredi 24 mars 2023-14:52:49

Archivage à long terme le : jeudi 8 avril 2010-20:46:35

Dates et versions

inria-00155787 , version 1 (19-06-2007)

Identifiants

HAL Id : inria-00155787 , version 1

Citer

Caroline Lavecchia, Kamel Smaïli, David Langlois. Building Parallel Corpora from Movies. The 4th International Workshop on Natural Language Processing and Cognitive Science - NLPCS 2007, Jun 2007, Funchal, Madeira, Portugal. ⟨inria-00155787⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE INRIA2 LORIA

226 Consultations

435 Téléchargements

Building Parallel Corpora from Movies

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager