Skip to Main content Skip to Navigation
Reports

Application de modèles de langages à la reconnaissance de promoteurs

Jean-Yves Giordano 1
1 REPCO - Knowledge Representation
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, INRIA Rennes
Résumé : Nous nous intéressons dans ce rapport aux possibilités d'application d'outils classiques de modélisation du langage naturel à l'analyse de séquences génomiques. Le problème biologique auquel nous nous sommes attaqués est la modélisation de régions promotrices eucaryotes, dans un but de prédiction et d'explication. Une partie de ce rapport traite de la représentation des sites de fixation, qui jouent un rôle déterminant dans la régulation de l'expression des gènes. L'autre partie concerne la caractérisation des régions promotrices sans connaissances a priori. Plusieurs approches issues du traitement du langage naturel ont été tentées, parmi lesquelles l'inférence grammaticale, les modèles de Markov cachés, les ngrams et multigrams. Les résultats obtenus sur les sites de fixation sont comparables à ceux obtenus avec la méthode communément utilisée en biologie, et nous semblent difficilement exploitables dans un but de caractérisation des régions promotrices, en raison de la complexité des mécanismes biologiques liant ces sites à la régulation. Les résultats concernant la caractérisation des régions promotrices sont probants mais révèlent une première différence fondamentale entre langages naturel et biologique. Alors que les textes en langage naturel sont caractérisés par une grande stabilité des fréquences des différentes combinaisons de lettres, des régions fonctionnellement similaires de l'ADN peuvent être d'une grande diversité quant à leur composition. Nous pensons que la prise en compte de cette variabilité est essentielle pour l'application de modèles de langages à l'ADN. Nous décrivons une première tentative basée sur cette constatation, en adaptant une méthode simple de comparaison des fréquences. Les résultats sont concluants et suggèrent que l'adjonction de telles corrections aux techniques plus sophistiquées existantes, quoique moins directe, puisse être d'un grand intérêt.
Document type :
Reports
Complete list of metadata

Cited literature [1 references]  Display  Hide  Download

https://hal.inria.fr/inria-00073592
Contributor : Rapport de Recherche Inria <>
Submitted on : Wednesday, May 24, 2006 - 1:16:36 PM
Last modification on : Thursday, February 11, 2021 - 2:48:05 PM
Long-term archiving on: : Sunday, April 4, 2010 - 11:51:17 PM

Identifiers

  • HAL Id : inria-00073592, version 1

Citation

Jean-Yves Giordano. Application de modèles de langages à la reconnaissance de promoteurs. [Rapport de recherche] RR-3099, INRIA. 1997. ⟨inria-00073592⟩

Share

Metrics

Record views

197

Files downloads

305