Pondération d'automates modélisant des familles de protéines et significativité des scores

Vincent Picard 1
1 SYMBIOSE - Biological systems and models, bioinformatics and sequences
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : Déterminer la fonction d'une protéine est un problème majeur en biologie, c'est pourquoi il est important de proposer des méthodes efficaces pour identifier les protéines partageant des caractéristiques communes. L'équipe Symbiose de l'IRISA a développé un modèle pour caractériser les familles de protéines [1, 2]. Ce modèle est un automate pondéré inféré à partir de plusieurs représentants connus de la famille. Étant donné une séquence protéique, l'automate permet de lui attribuer un score évaluant sa proximité avec la famille modélisée. Il est alors possible de rechercher dans les bases de données génomiques des protéines appartenant à cette famille. Malgré de bons résultats, la méthode de pondération de l'automate utilisée était naïve. Durant ce stage, j'ai amélioré les performances de ce modèle en proposant un nouveau schéma de pondération inspiré de l'état de l'art sur des modèles proches : les profils [3, 4], les matrices poids-position [5, 6], les profils à base de modèles de Markov cachés [7, 8] et les meta-motifs [9]. J'ai également démontré plusieurs propriétés sur la loi de distribution des scores fournis par le modèle. Les résultats théoriques que j'ai obtenus permettent d'estimer la significativité statistique des scores sous la forme d'une p-valeur. Cet indicateur, précieux pour les biologistes, permet de décider l'appartenance ou non à la famille et de classer les séquences en fonction de leur proximité à la famille. Les tests effectués montrent une nette amélioration du pouvoir de discrimination des protomates. J'ai écrit deux programmes : proto2wproto implémente la nouvelle méthode de pondération et wprotoscan calcule les scores et les p-valeurs des séquences. Ces deux programmes seront inclus dans la prochaine version du logiciel Protomata Learner, fonctionnant sur le cluster de la plate-forme bioinformatique Genouest et accessible à la communauté scientifique via une interface web.
Liste complète des métadonnées

https://hal.inria.fr/inria-00431111
Contributeur : François Coste <>
Soumis le : mardi 10 novembre 2009 - 16:54:23
Dernière modification le : mercredi 11 avril 2018 - 01:56:49

Identifiants

  • HAL Id : inria-00431111, version 1

Citation

Vincent Picard. Pondération d'automates modélisant des familles de protéines et significativité des scores. [Stage] 2009. 〈inria-00431111〉

Partager

Métriques

Consultations de la notice

307