De l'intérêt des modèles grammaticaux pour la reconnaissance de motifs dans les séquences génomiques

Résumé : Cette thèse en bioinformatique étudie l'intérêt de rechercher des motifs dans des séquences génomiques à l'aide de grammaires. Depuis les années 80, à l'initiative notamment de David Searls, des travaux ont montré qu'en théorie, des grammaires de haut niveau offrent suffisamment d'expressivité pour permettre la description de motifs biologiques complexes, notamment par le biais d'une nouvelle classe de grammaire dédiée à la biologie : les grammaires à variables de chaîne (SVG, String Variable Grammar). Ce formalisme a donné lieu à Logol, qui est un langage grammatical et un outil d'analyse développé dans l'équipe Dyliss où a lieu cette thèse. Logol est un langage conçu pour être suffisamment flexible pour se plier à une large gamme de motifs qu'il est possible de rencontrer en biologie. Le fait que les grammaires restent inutilisée pour la reconnaissance de motifs pose question. Le formalisme grammatical est-il vraiment pertinent pour modéliser des motifs biologiques ? Cette thèse tente de répondre à cette question à travers une démarche exploratoire. Ainsi, nous étudions la pertinence d'utiliser les modèles grammaticaux, via Logol, sur six applications différentes de reconnaissance de motifs sur des génomes. Au travers de la résolution concrète de problématiques biologiques, nous avons mis en évidence certaines caractéristiques des modèles grammaticaux. Une de leurs limites est que leur utilisation présente un coût en termes de performance. Un de leurs atouts est que leur expressivité couvre un large spectre des motifs biologiques, contrairement aux méthodes alternatives, et d'ailleurs certains motifs modélisés par les grammaires n'ont pas d'autres alternatives existantes. Il s'avère en particulier que pour certains motifs complexes, tels que ceux alliant séquence et structure, l'approche grammaticale est la plus adaptée. Pour finir, l'une des conclusions de cette thèse est qu'il n'y a pas réellement de compétition entre les différentes approches, mais plutôt qu'il y a tout à gagner d'une coopération fructueuse.
Type de document :
Thèse
Bio-informatique [q-bio.QM]. Université Rennes 1, 2016. Français. 〈NNT : 2016REN1S086〉
Liste complète des métadonnées

Littérature citée [129 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01416734
Contributeur : Abes Star <>
Soumis le : mardi 28 février 2017 - 11:35:24
Dernière modification le : mercredi 16 mai 2018 - 11:23:35
Document(s) archivé(s) le : lundi 29 mai 2017 - 13:26:01

Fichier

ANTOINE_LORQUIN_Aymeric.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01416734, version 2

Collections

Citation

Aymeric Antoine-Lorquin. De l'intérêt des modèles grammaticaux pour la reconnaissance de motifs dans les séquences génomiques. Bio-informatique [q-bio.QM]. Université Rennes 1, 2016. Français. 〈NNT : 2016REN1S086〉. 〈tel-01416734v2〉

Partager

Métriques

Consultations de la notice

388

Téléchargements de fichiers

248