Identification d'erreurs de traduction dans un dictionnaire de recherche d'informations translingue et traduction de mots composés à l'aide du World Wide Web

Hubert Naets; Gregory Grefenstette

Communication Dans Un Congrès Année : 2005

Identification d'erreurs de traduction dans un dictionnaire de recherche d'informations translingue et traduction de mots composés à l'aide du World Wide Web

, (1)

Hubert Naets

Fonction : Auteur correspondant
PersonId : 966570

Connectez-vous pour contacter l'auteur

Gregory Grefenstette

Fonction : Auteur
PersonId : 2537
IdHAL : gregory-grefenstette
ORCID : 0000-0001-8479-049X
IdRef : 075539381

Inria Saclay - Ile de France

Résumé

RÉSUMÉ. La recherche d'informations translingue sur des textes non parallèles nécessite une phase de traduction entre une requête dans une langue source et un document dans une langue cible. Afin d'obtenir les mêmes performances que dans le cas d'une requête monolingue sur un document dans la même langue que cette requête, il est nécessaire de trouver les bonnes traductions pour tous les termes de la requête en langue source. Malheureusement, les dictionnaires de traduction disponibles ne contiennent pas les traduc-tions exactes d'un grand nombre de mots composés qui peuvent être présents dans une requête. Les systèmes de recherche translingues utilisent des dictionnaires de traduction construits sta-tistiquement ou manuellement. Afin de traduire un mot composé, beaucoup de ces systèmes génèrent toutes les traductions possibles mot à mot et vérifient la présence de ces traductions dans la base de donnée cible. La qualité de la recherche augmente lorsque il est possible d'uti-liser des traductions de mots composés préalablement validées. Il reste cependant deux problèmes encore non résolus avec cette méthode consistant à générer et à valider toutes les traductions : (1) Si la traduction exacte d'un élément d'un mot composé ne figure pas dans le dictionnaire de traduction, la traduction qui sera validée par cette mé-thode ne sera pas la meilleure traduction. (2) Si la bonne traduction ne comprend pas le même nombre d'éléments que le mot composé source, la meilleure traduction ne sera pas non plus générée. Dans cet article, nous proposons deux méthodes pour identifier ces situations. ABSTRACT. Cross-language information retrieval over non parallel text requires a translation phase between a source language query and a target language document. In order to achieve the same performance as a monolingual target language query, good translations for all terms CORIA 05 France-Grenoble-9-11 mars 2005

Mots clés

Cross-language information retrieval query translation bilingual dictionaries compound words multiword terms web mining machine translation

Domaines

Informatique et langage [cs.CL]

Fichier principal

CORIA2005_naetz_identification_erreurs_traduction (1).pdf (265.65 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Gregory Grefenstette : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01154062

Soumis le : jeudi 21 mai 2015-09:50:13

Dernière modification le : mercredi 15 mars 2023-08:56:16

Archivage à long terme le : mardi 15 septembre 2015-06:36:06

Dates et versions

hal-01154062 , version 1 (21-05-2015)

Identifiants

HAL Id : hal-01154062 , version 1

Citer

Hubert Naets, Gregory Grefenstette. Identification d'erreurs de traduction dans un dictionnaire de recherche d'informations translingue et traduction de mots composés à l'aide du World Wide Web. CORIA 05, Mar 2005, Grenoble, France. ⟨hal-01154062⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INRIA INRIA2 AFFUMT

75 Consultations

43 Téléchargements

Identification d'erreurs de traduction dans un dictionnaire de recherche d'informations translingue et traduction de mots composés à l'aide du World Wide Web

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager