Identification d'erreurs de traduction dans un dictionnaire de recherche d'informations translingue et traduction de mots composés à l'aide du World Wide Web

Résumé : RÉSUMÉ. La recherche d'informations translingue sur des textes non parallèles nécessite une phase de traduction entre une requête dans une langue source et un document dans une langue cible. Afin d'obtenir les mêmes performances que dans le cas d'une requête monolingue sur un document dans la même langue que cette requête, il est nécessaire de trouver les bonnes traductions pour tous les termes de la requête en langue source. Malheureusement, les dictionnaires de traduction disponibles ne contiennent pas les traduc-tions exactes d'un grand nombre de mots composés qui peuvent être présents dans une requête. Les systèmes de recherche translingues utilisent des dictionnaires de traduction construits sta-tistiquement ou manuellement. Afin de traduire un mot composé, beaucoup de ces systèmes génèrent toutes les traductions possibles mot à mot et vérifient la présence de ces traductions dans la base de donnée cible. La qualité de la recherche augmente lorsque il est possible d'uti-liser des traductions de mots composés préalablement validées. Il reste cependant deux problèmes encore non résolus avec cette méthode consistant à générer et à valider toutes les traductions : (1) Si la traduction exacte d'un élément d'un mot composé ne figure pas dans le dictionnaire de traduction, la traduction qui sera validée par cette mé-thode ne sera pas la meilleure traduction. (2) Si la bonne traduction ne comprend pas le même nombre d'éléments que le mot composé source, la meilleure traduction ne sera pas non plus générée. Dans cet article, nous proposons deux méthodes pour identifier ces situations. ABSTRACT. Cross-language information retrieval over non parallel text requires a translation phase between a source language query and a target language document. In order to achieve the same performance as a monolingual target language query, good translations for all terms CORIA 05 France-Grenoble-9-11 mars 2005
Document type :
Conference papers
Liste complète des métadonnées

Cited literature [11 references]  Display  Hide  Download

https://hal.inria.fr/hal-01154062
Contributor : Gregory Grefenstette <>
Submitted on : Thursday, May 21, 2015 - 9:50:13 AM
Last modification on : Wednesday, July 5, 2017 - 8:59:55 PM
Document(s) archivé(s) le : Tuesday, September 15, 2015 - 6:36:06 AM

File

CORIA2005_naetz_identification...
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01154062, version 1

Collections

Citation

Hubert Naets, Gregory Grefenstette. Identification d'erreurs de traduction dans un dictionnaire de recherche d'informations translingue et traduction de mots composés à l'aide du World Wide Web. CORIA 05, Mar 2005, Grenoble, France. ⟨hal-01154062⟩

Share

Metrics

Record views

316

Files downloads

95