Analyse syntaxique non déterministe utilisant un modèle de n-grams - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 1997

Analyse syntaxique non déterministe utilisant un modèle de n-grams

Christine Sinoquet
Jacques Nicolas

Résumé

Nous étudions le problème de l'analyse non déterministe de séquences. Dans l'objectif de produire les meilleures solutions, nous proposons un modèle de couplage entre analyseur syntaxique et analyseur statistique. Du point de vue syntaxique, nous nous inspirons du formalisme {\sc SVG} (String Variable Grammars) proposé par D.Searls. Ce dernier introduit un nouveau type d'objet en analyse syntaxique, les variables de type chaîne, et définit une classe de transformations non déterministes (substitutions) applicables à ces variables. Du point de vue statistique, nous utilisons un modèle de n-grams. Nous appliquons le principe de recherche des n meilleures solutions au problème de la traduction reverse d'une séquence protéique. Nos expérimentations sont menées sur le génome de Escherichia coli. Nous évaluons d'abord l'impact de l'augmentation de la taille du contexte pris en compte pour le choix d'un codon, puis la qualité de prédiction obtenue sur une sous-séquence la plus déterminée de la séquence protéique à traduire. Nous examinons également la qualité de prédiction obtenue lorsque les modèles sont calculés sur un ensemble de protéines homologues à la protéine testée. Nous complétons nos investigations par la mise en oeuvre de deux protocoles expérimentaux destinés à comparer les qualités de prédiction obtenues selon deux modalités différentes (prise en compte du contexte, choix aléatoire).
Fichier principal
Vignette du fichier
RR-3262.pdf (491.49 Ko) Télécharger le fichier

Dates et versions

inria-00073427 , version 1 (24-05-2006)

Identifiants

  • HAL Id : inria-00073427 , version 1

Citer

Christine Sinoquet, Jacques Nicolas. Analyse syntaxique non déterministe utilisant un modèle de n-grams. [Rapport de recherche] RR-3262, INRIA. 1997. ⟨inria-00073427⟩
93 Consultations
114 Téléchargements

Partager

Gmail Facebook X LinkedIn More