Application de modèles de langages à la reconnaissance de promoteurs

Jean-Yves Giordano 1
1 REPCO - Knowledge Representation
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, INRIA Rennes
Résumé : Nous nous intéressons dans ce rapport aux possibilités d'application d'outils classiques de modélisation du langage naturel à l'analyse de séquences génomiques. Le problème biologique auquel nous nous sommes attaqués est la modélisation de régions promotrices eucaryotes, dans un but de prédiction et d'explication. Une partie de ce rapport traite de la représentation des sites de fixation, qui jouent un rôle déterminant dans la régulation de l'expression des gènes. L'autre partie concerne la caractérisation des régions promotrices sans connaissances a priori. Plusieurs approches issues du traitement du langage naturel ont été tentées, parmi lesquelles l'inférence grammaticale, les modèles de Markov cachés, les ngrams et multigrams. Les résultats obtenus sur les sites de fixation sont comparables à ceux obtenus avec la méthode communément utilisée en biologie, et nous semblent difficilement exploitables dans un but de caractérisation des régions promotrices, en raison de la complexité des mécanismes biologiques liant ces sites à la régulation. Les résultats concernant la caractérisation des régions promotrices sont probants mais révèlent une première différence fondamentale entre langages naturel et biologique. Alors que les textes en langage naturel sont caractérisés par une grande stabilité des fréquences des différentes combinaisons de lettres, des régions fonctionnellement similaires de l'ADN peuvent être d'une grande diversité quant à leur composition. Nous pensons que la prise en compte de cette variabilité est essentielle pour l'application de modèles de langages à l'ADN. Nous décrivons une première tentative basée sur cette constatation, en adaptant une méthode simple de comparaison des fréquences. Les résultats sont concluants et suggèrent que l'adjonction de telles corrections aux techniques plus sophistiquées existantes, quoique moins directe, puisse être d'un grand intérêt.
Type de document :
Rapport
[Rapport de recherche] RR-3099, INRIA. 1997
Liste complète des métadonnées

Littérature citée [1 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00073592
Contributeur : Rapport de Recherche Inria <>
Soumis le : mercredi 24 mai 2006 - 13:16:36
Dernière modification le : mercredi 16 mai 2018 - 11:23:04
Document(s) archivé(s) le : dimanche 4 avril 2010 - 23:51:17

Fichiers

Identifiants

  • HAL Id : inria-00073592, version 1

Citation

Jean-Yves Giordano. Application de modèles de langages à la reconnaissance de promoteurs. [Rapport de recherche] RR-3099, INRIA. 1997. 〈inria-00073592〉

Partager

Métriques

Consultations de la notice

174

Téléchargements de fichiers

245