Pondération d'automates modélisant des familles de protéines et significativité des scores - Inria - Institut national de recherche en sciences et technologies du numérique Access content directly
Reports Year : 2009

Pondération d'automates modélisant des familles de protéines et significativité des scores

Abstract

Déterminer la fonction d'une protéine est un problème majeur en biologie, c'est pourquoi il est important de proposer des méthodes efficaces pour identifier les protéines partageant des caractéristiques communes. L'équipe Symbiose de l'IRISA a développé un modèle pour caractériser les familles de protéines [1, 2]. Ce modèle est un automate pondéré inféré à partir de plusieurs représentants connus de la famille. Étant donné une séquence protéique, l'automate permet de lui attribuer un score évaluant sa proximité avec la famille modélisée. Il est alors possible de rechercher dans les bases de données génomiques des protéines appartenant à cette famille. Malgré de bons résultats, la méthode de pondération de l'automate utilisée était naïve. Durant ce stage, j'ai amélioré les performances de ce modèle en proposant un nouveau schéma de pondération inspiré de l'état de l'art sur des modèles proches : les profils [3, 4], les matrices poids-position [5, 6], les profils à base de modèles de Markov cachés [7, 8] et les meta-motifs [9]. J'ai également démontré plusieurs propriétés sur la loi de distribution des scores fournis par le modèle. Les résultats théoriques que j'ai obtenus permettent d'estimer la significativité statistique des scores sous la forme d'une p-valeur. Cet indicateur, précieux pour les biologistes, permet de décider l'appartenance ou non à la famille et de classer les séquences en fonction de leur proximité à la famille. Les tests effectués montrent une nette amélioration du pouvoir de discrimination des protomates. J'ai écrit deux programmes : proto2wproto implémente la nouvelle méthode de pondération et wprotoscan calcule les scores et les p-valeurs des séquences. Ces deux programmes seront inclus dans la prochaine version du logiciel Protomata Learner, fonctionnant sur le cluster de la plate-forme bioinformatique Genouest et accessible à la communauté scientifique via une interface web.
No file

Dates and versions

inria-00431111 , version 1 (10-11-2009)

Identifiers

  • HAL Id : inria-00431111 , version 1

Cite

Vincent Picard. Pondération d'automates modélisant des familles de protéines et significativité des scores. [Stage] 2009. ⟨inria-00431111⟩
157 View
0 Download

Share

Gmail Facebook X LinkedIn More