A Similar Fragments Merging Approach to Learn Automata on Proteins

François Coste 1 Goulven Kerbellec 1
1 SYMBIOSE - Biological systems and models, bioinformatics and sequences
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : We propose here to learn automata for the characterization of proteins families to overcome the limitations of the position-specific characterizations classically used in Pattern Discovery. We introduce a new heuristic approach learning non-deterministic automata based on selection and ordering of significantly similar fragments to be merged and on physico-chemical properties identification. Quality of the characterization of the major intrinsic protein (MIP) family is assessed by leave-one-out cross-validation for a large range of models specificity. // Nous proposons d'apprendre des automates caractérisant des familles de protéines pour dépasser les limites des méthodes usuelles de Découverte de Motifs qui sont actuellement restreintes à des caractérisations par positions. Nous introduisons ainsi une nouvelle approche heuristique permettant d'apprendre des automates non déterministes, basée sur la sélection, le tri et la fusion de fragments significativement similaires, ainsi que sur l'identification de propriétés physico-chimiques. La qualité de caractérisation de la famille de protéines MIP (major intrinsic protein) est attestée par validation croisée de type leave-one-out pour différents niveaux de spécificité des modèles.
Document type :
Reports
Complete list of metadatas

https://hal.inria.fr/inria-00000179
Contributor : Anne Jaigu <>
Submitted on : Tuesday, July 26, 2005 - 2:18:58 PM
Last modification on : Friday, November 16, 2018 - 1:24:27 AM
Long-term archiving on : Thursday, April 1, 2010 - 10:07:54 PM

Identifiers

  • HAL Id : inria-00000179, version 1

Citation

François Coste, Goulven Kerbellec. A Similar Fragments Merging Approach to Learn Automata on Proteins. [Research Report] PI 1735, 2005. ⟨inria-00000179⟩

Share

Metrics

Record views

279

Files downloads

302