Analyse syntaxique non déterministe utilisant un modèle de n-grams

Christine Sinoquet 1 Jacques Nicolas 1
1 REPCO - Knowledge Representation
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, INRIA Rennes
Résumé : Nous étudions le problème de l'analyse non déterministe de séquences. Dans l'objectif de produire les meilleures solutions, nous proposons un modèle de couplage entre analyseur syntaxique et analyseur statistique. Du point de vue syntaxique, nous nous inspirons du formalisme {\sc SVG} (String Variable Grammars) proposé par D.Searls. Ce dernier introduit un nouveau type d'objet en analyse syntaxique, les variables de type chaîne, et définit une classe de transformations non déterministes (substitutions) applicables à ces variables. Du point de vue statistique, nous utilisons un modèle de n-grams. Nous appliquons le principe de recherche des n meilleures solutions au problème de la traduction reverse d'une séquence protéique. Nos expérimentations sont menées sur le génome de Escherichia coli. Nous évaluons d'abord l'impact de l'augmentation de la taille du contexte pris en compte pour le choix d'un codon, puis la qualité de prédiction obtenue sur une sous-séquence la plus déterminée de la séquence protéique à traduire. Nous examinons également la qualité de prédiction obtenue lorsque les modèles sont calculés sur un ensemble de protéines homologues à la protéine testée. Nous complétons nos investigations par la mise en oeuvre de deux protocoles expérimentaux destinés à comparer les qualités de prédiction obtenues selon deux modalités différentes (prise en compte du contexte, choix aléatoire).
Type de document :
Rapport
[Rapport de recherche] RR-3262, INRIA. 1997
Liste complète des métadonnées

https://hal.inria.fr/inria-00073427
Contributeur : Rapport de Recherche Inria <>
Soumis le : mercredi 24 mai 2006 - 12:47:04
Dernière modification le : mercredi 11 avril 2018 - 01:51:13
Document(s) archivé(s) le : dimanche 4 avril 2010 - 21:17:22

Fichiers

Identifiants

  • HAL Id : inria-00073427, version 1

Citation

Christine Sinoquet, Jacques Nicolas. Analyse syntaxique non déterministe utilisant un modèle de n-grams. [Rapport de recherche] RR-3262, INRIA. 1997. 〈inria-00073427〉

Partager

Métriques

Consultations de la notice

115

Téléchargements de fichiers

153