Métagénomique comparative de novo à grande échelle

Gaëtan Benoit 1, 2
1 GenScale - Scalable, Optimized and Parallel Algorithms for Genomics
Inria Rennes – Bretagne Atlantique , IRISA_D7 - GESTION DES DONNÉES ET DE LA CONNAISSANCE
Résumé : La métagénomique comparative est dite de novo lorsque les échantillons sont comparés sans connaissances a priori. La similarité est alors estimée en comptant le nombre de séquences d’ADN similaires entre les jeux de données. Un projet métagénomique génère typiquement des centaines de jeux de données. Chaque jeu contient des dizaines de millions de courtes séquences d’ADN de 100 à 200 nucléotides (appelées lectures). Dans le contexte du début de cette thèse, il aurait fallu des années pour comparer une telle masse de données avec les méthodes usuelles. Cette thèse présente des approches de novo pour calculer très rapidement la similarité entre de nombreux jeux de données. Les travaux que nous proposons se basent sur le k-mer (mot de taille k) comme unité de comparaison des métagénomes. La méthode principale développée pendant cette thèse, nommée Simka, calcule de nombreuses mesures de similarité en remplacement les comptages d’espèces classiquement utilisés par des comptages de grands k-mers (k > 21). Simka passe à l’échelle sur les projets métagénomiques actuels grâce à un nouvelle stratégie pour compter les k-mers de nombreux jeux de données en parallèle. Les expériences sur les données du projet Human Microbiome Projet et Tara Oceans montrent que les similarités calculées par Simka sont bien corrélées avec les similarités basées sur des comptages d’espèces ou d’OTUs. Simka a traité ces projets (plus de 30 milliards de lectures réparties dans des centaines de jeux) en quelques heures. C’est actuellement le seul outil à passer à l’échelle sur une telle quantité de données, tout en étant complet du point de vue des résultats de comparaisons.
Type de document :
Thèse
Bio-informatique [q-bio.QM]. Université Rennes 1, 2017. Français. 〈NNT : 2017REN1S088〉
Liste complète des métadonnées

Littérature citée [163 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01659395
Contributeur : Abes Star <>
Soumis le : mercredi 28 février 2018 - 11:45:18
Dernière modification le : vendredi 16 novembre 2018 - 01:27:00

Fichier

BENOIT_Gaetan.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01659395, version 2

Citation

Gaëtan Benoit. Métagénomique comparative de novo à grande échelle. Bio-informatique [q-bio.QM]. Université Rennes 1, 2017. Français. 〈NNT : 2017REN1S088〉. 〈tel-01659395v2〉

Partager

Métriques

Consultations de la notice

372

Téléchargements de fichiers

249