Identification d'erreurs de traduction dans un dictionnaire de recherche d'informations translingue et traduction de mots composés à l'aide du World Wide Web

Résumé : RÉSUMÉ. La recherche d'informations translingue sur des textes non parallèles nécessite une phase de traduction entre une requête dans une langue source et un document dans une langue cible. Afin d'obtenir les mêmes performances que dans le cas d'une requête monolingue sur un document dans la même langue que cette requête, il est nécessaire de trouver les bonnes traductions pour tous les termes de la requête en langue source. Malheureusement, les dictionnaires de traduction disponibles ne contiennent pas les traduc-tions exactes d'un grand nombre de mots composés qui peuvent être présents dans une requête. Les systèmes de recherche translingues utilisent des dictionnaires de traduction construits sta-tistiquement ou manuellement. Afin de traduire un mot composé, beaucoup de ces systèmes génèrent toutes les traductions possibles mot à mot et vérifient la présence de ces traductions dans la base de donnée cible. La qualité de la recherche augmente lorsque il est possible d'uti-liser des traductions de mots composés préalablement validées. Il reste cependant deux problèmes encore non résolus avec cette méthode consistant à générer et à valider toutes les traductions : (1) Si la traduction exacte d'un élément d'un mot composé ne figure pas dans le dictionnaire de traduction, la traduction qui sera validée par cette mé-thode ne sera pas la meilleure traduction. (2) Si la bonne traduction ne comprend pas le même nombre d'éléments que le mot composé source, la meilleure traduction ne sera pas non plus générée. Dans cet article, nous proposons deux méthodes pour identifier ces situations. ABSTRACT. Cross-language information retrieval over non parallel text requires a translation phase between a source language query and a target language document. In order to achieve the same performance as a monolingual target language query, good translations for all terms CORIA 05 France-Grenoble-9-11 mars 2005
Type de document :
Communication dans un congrès
CORIA 05, Mar 2005, Grenoble, France. 2005, 〈http://mrim.imag.fr/coria05/main_coria.html〉
Liste complète des métadonnées

Littérature citée [11 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01154062
Contributeur : Gregory Grefenstette <>
Soumis le : jeudi 21 mai 2015 - 09:50:13
Dernière modification le : mercredi 5 juillet 2017 - 20:59:55
Document(s) archivé(s) le : mardi 15 septembre 2015 - 06:36:06

Fichier

CORIA2005_naetz_identification...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01154062, version 1

Collections

Citation

Hubert Naets, Gregory Grefenstette. Identification d'erreurs de traduction dans un dictionnaire de recherche d'informations translingue et traduction de mots composés à l'aide du World Wide Web. CORIA 05, Mar 2005, Grenoble, France. 2005, 〈http://mrim.imag.fr/coria05/main_coria.html〉. 〈hal-01154062〉

Partager

Métriques

Consultations de la notice

295

Téléchargements de fichiers

84