Pondération d'automates modélisant des familles de protéines et significativité des scores

Vincent Picard

Reports Year : 2009

Pondération d'automates modélisant des familles de protéines et significativité des scores

(1)

Vincent Picard

Function : Author
PersonId : 864593

Biological systems and models, bioinformatics and sequences

Abstract

Déterminer la fonction d'une protéine est un problème majeur en biologie, c'est pourquoi il est important de proposer des méthodes efficaces pour identifier les protéines partageant des caractéristiques communes. L'équipe Symbiose de l'IRISA a développé un modèle pour caractériser les familles de protéines [1, 2]. Ce modèle est un automate pondéré inféré à partir de plusieurs représentants connus de la famille. Étant donné une séquence protéique, l'automate permet de lui attribuer un score évaluant sa proximité avec la famille modélisée. Il est alors possible de rechercher dans les bases de données génomiques des protéines appartenant à cette famille. Malgré de bons résultats, la méthode de pondération de l'automate utilisée était naïve. Durant ce stage, j'ai amélioré les performances de ce modèle en proposant un nouveau schéma de pondération inspiré de l'état de l'art sur des modèles proches : les profils [3, 4], les matrices poids-position [5, 6], les profils à base de modèles de Markov cachés [7, 8] et les meta-motifs [9]. J'ai également démontré plusieurs propriétés sur la loi de distribution des scores fournis par le modèle. Les résultats théoriques que j'ai obtenus permettent d'estimer la significativité statistique des scores sous la forme d'une p-valeur. Cet indicateur, précieux pour les biologistes, permet de décider l'appartenance ou non à la famille et de classer les séquences en fonction de leur proximité à la famille. Les tests effectués montrent une nette amélioration du pouvoir de discrimination des protomates. J'ai écrit deux programmes : proto2wproto implémente la nouvelle méthode de pondération et wprotoscan calcule les scores et les p-valeurs des séquences. Ces deux programmes seront inclus dans la prochaine version du logiciel Protomata Learner, fonctionnant sur le cluster de la plate-forme bioinformatique Genouest et accessible à la communauté scientifique via une interface web.

Keywords

automate protéine pondération dirichlet significativité p-valeur

Domains

Quantitative Methods [q-bio.QM] Bioinformatics [q-bio.QM]

François Coste : Connect in order to contact the contributor

https://inria.hal.science/inria-00431111

Submitted on : Tuesday, November 10, 2009-4:54:23 PM

Last modification on : Friday, March 24, 2023-2:52:52 PM

Dates and versions

inria-00431111 , version 1 (10-11-2009)

Identifiers

HAL Id : inria-00431111 , version 1

Cite

Vincent Picard. Pondération d'automates modélisant des familles de protéines et significativité des scores. [Stage] 2009. ⟨inria-00431111⟩

Export

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EC-PARIS UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA IRISA-D7 INRIA2 LARA UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INSA-GROUPE UR1-MATH-NUM

157 View

0 Download

Pondération d'automates modélisant des familles de protéines et significativité des scores

Abstract

Keywords

Domains

Dates and versions

Identifiers

Cite

Export

Collections

Share