Métagénomique comparative de novo à grande échelle

Gaëtan Benoit 1
1 GenScale - Scalable, Optimized and Parallel Algorithms for Genomics
Inria Rennes – Bretagne Atlantique , IRISA_D7 - GESTION DES DONNÉES ET DE LA CONNAISSANCE
Résumé : La métagénomique vise à étudier le contenu génomique d’un échantillon extrait d’un milieu naturel. Parmi les analyses de données métagénomiques, la métagénomique comparative a pour objectif d’estimer la similarité entre deux ou plusieurs environnements d’un point de vue génomique. L’approche traditionnelle compare les échantillons sur la base des espèces identifiées. Cependant, cette méthode est biaisée par l’incomplétude des bases de données de références. La métagénomique comparative est dite de novo lorsque les échantillons sont comparés sans connaissances a priori. La similarité est alors estimée en comptant le nombre de séquences d’ADN similaires entre les jeux de données. Un projet métagénomique génère typiquement des centaines de jeux de données. Chaque jeu contient des dizaines de millions de courtes séquences d’ADN de 100 à 200 nucléotides (appelées lectures). Dans le contexte du début de cette thèse, il aurait fallu des années pour comparer une telle masse de données avec les méthodes usuelles. Cette thèse présente des approches de novo pour calculer très rapidement la similarité entre de nombreux jeux de données. Les travaux que nous proposons se basent sur le k-mer (mot de taille k) comme unité de comparaison des métagénomes. La méthode principale développée pendant cette thèse, nommée Simka, calcule de nombreuses mesures de similarité en remplaçant les comptages d’espèces classiquement utilisés par des comptages de grands k-mers (k > 21). Simka passe à l’échelle sur les projets métagénomiques actuels grâce à un nouvelle stratégie pour compter les k-mers de nombreux jeux de données en parallèle. Les expériences sur les données du projet Human Microbiome Projet et Tara Oceans montrent que les similarités calculées par Simka sont bien corrélées avec les similarités basées sur des comptages d’espèces ou d’OTUs. Simka a traité ces projets (plus de 30 milliards de lectures réparties dans des centaines de jeux) en quelques heures. C’est actuellement le seul outil à passer à l’échelle sur une telle quantité de données, tout en étant complet du point de vue des résultats de comparaisons.
Type de document :
Thèse
Bio-informatique [q-bio.QM]. Université Rennes1, 2017. Français
Liste complète des métadonnées

Littérature citée [189 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01659395
Contributeur : Gaëtan Benoit <>
Soumis le : vendredi 8 décembre 2017 - 13:13:24
Dernière modification le : jeudi 11 janvier 2018 - 06:28:15

Fichier

these.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01659395, version 1

Citation

Gaëtan Benoit. Métagénomique comparative de novo à grande échelle. Bio-informatique [q-bio.QM]. Université Rennes1, 2017. Français. 〈tel-01659395〉

Partager

Métriques

Consultations de la notice

85

Téléchargements de fichiers

39