Classification non supervisée par HMM de sites de fixation de facteurs de transcription chez les bactéries - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2004

Classification non supervisée par HMM de sites de fixation de facteurs de transcription chez les bactéries

Bertrand Aigle
Bernard Decaris
  • Fonction : Auteur
Pierre Leblond

Résumé

Nous développons des méthodes de fouille de données basées sur l'utilisation de modèles Markoviens du second ordre adaptés à l'étude des génomes. Ceux-ci réalisent une segmentation pouvant être observée sous la forme d'un signal stochastique traduisant l'organisation et la structure des motifs d'ADN sous-jacents. Aucune hypothèse 'a priori' n'est effectuée sur le contenu génétique des séquences étudiées. La modélisation du corpus de séquences est réalisée par une étape d'apprentissage automatique qui produit une classification non supervisée des segments nucléotidiques observés sur les différents états des HMM. Une première étape d'apprentissage sur les séquences chromosomiques complètes des bactéries actinomycètes Streptomyces coelicolor, S. avermitilis et Mycobacterium tuberculosis permet l'obtention de trois classes de HMM décrivant chacune un génome. Lors du processus de segmentation, certaines chaînes d'états cachés décrivent des fragments génomiques comme les gènes et les séquences intergéniques alors qu'une autre chaîne se spécialise sur la distribution de motifs d'ADN locaux particuliers. Ceux-ci correspondent à des mots de 5 à 12 nucléotides présents à des fréquences inhabituelles dans les régions intergéniques. Chez S. coelicolor, la classification de 2500 de ces motifs, issus d'une extraction automatique et identifiés dans 1,2 Mb d'ADN génomique, indique que 7% correspondraient à des sites de fixation de facteurs sigma connus (SigR, SigB, WhiG, HrdB) et 5% à des sites de fixation du ribosome ou des terminateurs de transcription potentiels. Concernant le régulon SigR/SigH (réponse au stress oxydant chez les Streptomyces/M. tuberculosis), la mise en oeuvre de cette approche a permis de détecter tous les promoteurs déjà déterminés biologiquement. Enfin, certains de ces motifs ne peuvent être corrélés à des rôles biologiques connus ou prédits à ce jour. Leur classification pourrait mettre en évidence des groupes à propriétés communes et viserait à définir des motifs promoteurs, puis, à terme, des réseaux de gènes co-régulés.
Fichier principal
Vignette du fichier
A04-R-119.pdf (52.38 Ko) Télécharger le fichier

Dates et versions

inria-00107788 , version 1 (19-10-2006)

Identifiants

  • HAL Id : inria-00107788 , version 1

Citer

Sébastien Hergalant, Bertrand Aigle, Bernard Decaris, Jean-François Mari, Pierre Leblond. Classification non supervisée par HMM de sites de fixation de facteurs de transcription chez les bactéries. 5èmes Journées Ouvertes : Biologie, Informatique et Mathématiques - JOBIM'04, 2004, Montréal, Canada, 1 p. ⟨inria-00107788⟩
192 Consultations
73 Téléchargements

Partager

Gmail Facebook X LinkedIn More