Identification d'erreurs de traduction dans un dictionnaire de recherche d'informations translingue et traduction de mots composés à l'aide du World Wide Web - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2005

Identification d'erreurs de traduction dans un dictionnaire de recherche d'informations translingue et traduction de mots composés à l'aide du World Wide Web

Hubert Naets
  • Fonction : Auteur correspondant
  • PersonId : 966570

Connectez-vous pour contacter l'auteur
Gregory Grefenstette

Résumé

RÉSUMÉ. La recherche d'informations translingue sur des textes non parallèles nécessite une phase de traduction entre une requête dans une langue source et un document dans une langue cible. Afin d'obtenir les mêmes performances que dans le cas d'une requête monolingue sur un document dans la même langue que cette requête, il est nécessaire de trouver les bonnes traductions pour tous les termes de la requête en langue source. Malheureusement, les dictionnaires de traduction disponibles ne contiennent pas les traduc-tions exactes d'un grand nombre de mots composés qui peuvent être présents dans une requête. Les systèmes de recherche translingues utilisent des dictionnaires de traduction construits sta-tistiquement ou manuellement. Afin de traduire un mot composé, beaucoup de ces systèmes génèrent toutes les traductions possibles mot à mot et vérifient la présence de ces traductions dans la base de donnée cible. La qualité de la recherche augmente lorsque il est possible d'uti-liser des traductions de mots composés préalablement validées. Il reste cependant deux problèmes encore non résolus avec cette méthode consistant à générer et à valider toutes les traductions : (1) Si la traduction exacte d'un élément d'un mot composé ne figure pas dans le dictionnaire de traduction, la traduction qui sera validée par cette mé-thode ne sera pas la meilleure traduction. (2) Si la bonne traduction ne comprend pas le même nombre d'éléments que le mot composé source, la meilleure traduction ne sera pas non plus générée. Dans cet article, nous proposons deux méthodes pour identifier ces situations. ABSTRACT. Cross-language information retrieval over non parallel text requires a translation phase between a source language query and a target language document. In order to achieve the same performance as a monolingual target language query, good translations for all terms CORIA 05 France-Grenoble-9-11 mars 2005
Fichier principal
Vignette du fichier
CORIA2005_naetz_identification_erreurs_traduction (1).pdf (265.65 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01154062 , version 1 (21-05-2015)

Identifiants

  • HAL Id : hal-01154062 , version 1

Citer

Hubert Naets, Gregory Grefenstette. Identification d'erreurs de traduction dans un dictionnaire de recherche d'informations translingue et traduction de mots composés à l'aide du World Wide Web. CORIA 05, Mar 2005, Grenoble, France. ⟨hal-01154062⟩
75 Consultations
43 Téléchargements

Partager

Gmail Facebook X LinkedIn More