Identification of strains of a bacterial species from long reads

Grégoire Romain Siekaniec

Thèse Année : 2021

Identification of strains of a bacterial species from long reads

Identification de souches d’une espèce bactérienne à partir de longues lectures

(1, 2)

1
2

Grégoire Romain Siekaniec

Fonction : Auteur
PersonId : 1089485

Science et Technologie du Lait et de l'Oeuf

Scalable, Optimized and Parallel Algorithms for Genomics

Résumé

Currently, the identification from genomic sequences of strains of a bacterial species present in a sample remains a complex and time consuming process. This difficulty comes from the genomic similarity between these strains. However, being able to differentiate them quickly is crucial in many fields, whether in agri-food (such as Streptococcus thermophilus) or in public health. Recently, the third generation of sequencing technologies, and more specifically the Oxford Nanopore Technologies sequencers, make it possible to obtain long but erroneous sequences from samples containing bacterial strains. These reads contain more information than the short reads from the second generation. However, currently, there are still few bioinformatics softwares developed to identify bacterial strains from erroneous long reads.This thesis therefore proposes a new method of bacterial strain identification based on the assumption that a nanopore read is long enough to distinguish one strain (or group of strains) from others. This method uses a particularly compact indexing technique of a known genome database. It also relies on the use of a spaced seed in order to search for sequences in the index while being less sensitive to long reads errors. The method is implemented in a software called ORI (Oxford nanopore Reads Identification) which has shown robust bacterial identification results on real data of Streptococcus thermophilus.

Actuellement, l'identification à partir de séquences génomiques de souches d'une espèce bactérienne présentes dans un échantillon reste un processus complexe et chronophage. Cette difficulté provient de la grande similarité génomique entre ces souches. Cependant, pouvoir les différencier rapidement est crucial dans de nombreux domaines, que ce soit en agroalimentaire (comme Streptococcus thermophilus) ou en santé publique. Récemment, la troisième génération de technologies de séquençage, et plus particulièrement les séquenceurs d'Oxford Nanopore Technologies, permettent d'obtenir des séquences longues mais erronées à partir d'échantillons contenant des souches bactériennes. Ces lectures contiennent plus d'informations que les anciennes lectures courtes de seconde génération. Or, actuellement, il existe encore assez peu de logiciels bioinformatiques développés pour identifier les souches bactériennes à partir de longues lectures erronées. Cette thèse propose donc une nouvelle méthode d'identification de souches bactériennes basée sur l'hypothèse qu'une lecture nanopore est suffisamment longue pour permettre de distinguer une souche (ou un groupe de souches) des autres. Cette méthode utilise une technique d'indexation particulièrement compacte d'une base de données de génomes connus. Elle repose également sur l'utilisation d'une graine espacée afin de rechercher les séquences dans l'index en étant moins sensible aux erreurs des lectures longues. La méthode est implémentée dans un logiciel appelé ORI (Oxford nanopore Reads Identification) qui a montré des résultats robuste d'identification bactérienne sur des données réelles de Streptococcus thermophilus.

Mots clés

Bioinformatics Bacterial strains identification Streptococcus thermophilus Long read Indexing Spaced seed

Bioinformatique Identification de souches bactériennes Streptococcus thermophilus Lecture longue Indexation Graine espacée

Domaines

Bio-informatique [q-bio.QM]

Fichier principal

SIEKANIEC_Gregoire.pdf (4.6 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-03510672

Soumis le : mardi 15 mars 2022-13:22:31

Dernière modification le : mercredi 13 décembre 2023-10:14:07

Dates et versions

tel-03510672 , version 1 (04-01-2022)

tel-03510672 , version 2 (15-03-2022)

Identifiants

HAL Id : tel-03510672 , version 2

Citer

Grégoire Romain Siekaniec. Identification of strains of a bacterial species from long reads. Bioinformatics [q-bio.QM]. Université Rennes 1, 2021. English. ⟨NNT : 2021REN1S083⟩. ⟨tel-03510672v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA STAR UNAM CENTRALESUPELEC INRIA2 UR1-THESES UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INRAE STLO UR1-MATH-NUM MICA-UNITES

170 Consultations

363 Téléchargements

Identification of strains of a bacterial species from long reads

Identification de souches d’une espèce bactérienne à partir de longues lectures

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager