Application de modèles de langages à la reconnaissance de promoteurs - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 1997

Application de modèles de langages à la reconnaissance de promoteurs

Résumé

Nous nous intéressons dans ce rapport aux possibilités d'application d'outils classiques de modélisation du langage naturel à l'analyse de séquences génomiques. Le problème biologique auquel nous nous sommes attaqués est la modélisation de régions promotrices eucaryotes, dans un but de prédiction et d'explication. Une partie de ce rapport traite de la représentation des sites de fixation, qui jouent un rôle déterminant dans la régulation de l'expression des gènes. L'autre partie concerne la caractérisation des régions promotrices sans connaissances a priori. Plusieurs approches issues du traitement du langage naturel ont été tentées, parmi lesquelles l'inférence grammaticale, les modèles de Markov cachés, les ngrams et multigrams. Les résultats obtenus sur les sites de fixation sont comparables à ceux obtenus avec la méthode communément utilisée en biologie, et nous semblent difficilement exploitables dans un but de caractérisation des régions promotrices, en raison de la complexité des mécanismes biologiques liant ces sites à la régulation. Les résultats concernant la caractérisation des régions promotrices sont probants mais révèlent une première différence fondamentale entre langages naturel et biologique. Alors que les textes en langage naturel sont caractérisés par une grande stabilité des fréquences des différentes combinaisons de lettres, des régions fonctionnellement similaires de l'ADN peuvent être d'une grande diversité quant à leur composition. Nous pensons que la prise en compte de cette variabilité est essentielle pour l'application de modèles de langages à l'ADN. Nous décrivons une première tentative basée sur cette constatation, en adaptant une méthode simple de comparaison des fréquences. Les résultats sont concluants et suggèrent que l'adjonction de telles corrections aux techniques plus sophistiquées existantes, quoique moins directe, puisse être d'un grand intérêt.
Fichier principal
Vignette du fichier
RR-3099.pdf (658.87 Ko) Télécharger le fichier
Loading...

Dates et versions

inria-00073592 , version 1 (24-05-2006)

Identifiants

  • HAL Id : inria-00073592 , version 1

Citer

Jean-Yves Giordano. Application de modèles de langages à la reconnaissance de promoteurs. [Rapport de recherche] RR-3099, INRIA. 1997. ⟨inria-00073592⟩
66 Consultations
155 Téléchargements

Partager

Gmail Facebook X LinkedIn More