Classification non supervisée par HMM de sites de fixation de facteurs de transcription chez les bactéries

Sébastien Hergalant 1 Bertrand Aigle Bernard Decaris Jean-François Mari 1 Pierre Leblond
1 ORPAILLEUR - Knowledge representation, reasonning
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Nous développons des méthodes de fouille de données basées sur l'utilisation de modèles Markoviens du second ordre adaptés à l'étude des génomes. Ceux-ci réalisent une segmentation pouvant être observée sous la forme d'un signal stochastique traduisant l'organisation et la structure des motifs d'ADN sous-jacents. Aucune hypothèse 'a priori' n'est effectuée sur le contenu génétique des séquences étudiées. La modélisation du corpus de séquences est réalisée par une étape d'apprentissage automatique qui produit une classification non supervisée des segments nucléotidiques observés sur les différents états des HMM. Une première étape d'apprentissage sur les séquences chromosomiques complètes des bactéries actinomycètes Streptomyces coelicolor, S. avermitilis et Mycobacterium tuberculosis permet l'obtention de trois classes de HMM décrivant chacune un génome. Lors du processus de segmentation, certaines chaînes d'états cachés décrivent des fragments génomiques comme les gènes et les séquences intergéniques alors qu'une autre chaîne se spécialise sur la distribution de motifs d'ADN locaux particuliers. Ceux-ci correspondent à des mots de 5 à 12 nucléotides présents à des fréquences inhabituelles dans les régions intergéniques. Chez S. coelicolor, la classification de 2500 de ces motifs, issus d'une extraction automatique et identifiés dans 1,2 Mb d'ADN génomique, indique que 7% correspondraient à des sites de fixation de facteurs sigma connus (SigR, SigB, WhiG, HrdB) et 5% à des sites de fixation du ribosome ou des terminateurs de transcription potentiels. Concernant le régulon SigR/SigH (réponse au stress oxydant chez les Streptomyces/M. tuberculosis), la mise en oeuvre de cette approche a permis de détecter tous les promoteurs déjà déterminés biologiquement. Enfin, certains de ces motifs ne peuvent être corrélés à des rôles biologiques connus ou prédits à ce jour. Leur classification pourrait mettre en évidence des groupes à propriétés communes et viserait à définir des motifs promoteurs, puis, à terme, des réseaux de gènes co-régulés.
Type de document :
Communication dans un congrès
5èmes Journées Ouvertes : Biologie, Informatique et Mathématiques - JOBIM'04, 2004, Montréal, Canada, 1 p, 2004
Liste complète des métadonnées

https://hal.inria.fr/inria-00107788
Contributeur : Publications Loria <>
Soumis le : jeudi 19 octobre 2006 - 09:09:21
Dernière modification le : samedi 31 mars 2018 - 22:20:02
Document(s) archivé(s) le : mercredi 29 mars 2017 - 12:55:10

Identifiants

  • HAL Id : inria-00107788, version 1

Collections

Citation

Sébastien Hergalant, Bertrand Aigle, Bernard Decaris, Jean-François Mari, Pierre Leblond. Classification non supervisée par HMM de sites de fixation de facteurs de transcription chez les bactéries. 5èmes Journées Ouvertes : Biologie, Informatique et Mathématiques - JOBIM'04, 2004, Montréal, Canada, 1 p, 2004. 〈inria-00107788〉

Partager

Métriques

Consultations de la notice

279

Téléchargements de fichiers

101