De novo long reads assembly using integer linear programming

Victor Epain

Mémoires D'étudiants -- Hal-Inria+ Année : 2019

De novo long reads assembly using integer linear programming

Assemblage de novo de longues lectures par la programmation mathématique linéaire

(1)

Victor Epain

Fonction : Auteur
PersonId : 753386
IdHAL : victor-epain
ORCID : 0000-0003-0049-0954

Scalable, Optimized and Parallel Algorithms for Genomics

Résumé

In silico studying a genome requires two steps: sequencing it with cloning and cutting the genome in several reads, and then, assembling the reads. It is well known that the number of sequencing errors is proportional to the reads' size. However, the use of long reads can be an advantage against genome repeated regions issues. De novo is an assembly method which does not use a reference. The purpose of the described here tool, named LOREAS, is to be a de novo assembler in two tasks: first, ordering the long reads, and then, obtaining a consensus sequence of the ordered reads. Currently, only the first task was realised. While other de novo long reads assemblers use heuristics and De Bruijn graphs, LOREAS is based on overlaps similarity between all the long reads. It uses integer linear programming, to find the heaviest path in a graph $G= (V,E,λ)$, where V is the vertices set corresponding to the long reads set, E the set of edges associated with the overlaps between long reads – weighted by λ: the overlap length. When this graph is too huge, the set of reads V is partitioned in several parts. Then, all the parts are solved sequentially. Here we present the solution concerning the first task related to ten bacteria genomes. Seven of them have been successfully solved for less than 12 minutes on a laptop.

Étudier insilico un génome nécessite deux principales tâches: le séquencer, en le clonant puis en le découpant en plusieurs lectures, puis assembler les lectures. Le serreurs de séquençage dépendent de la taille des lectures générées: le taux d'erreur pour les longues lectures est plus important que celui des courtes lectures. Toutefois, les longues lectures permettent de contrer les problèmes issus des régions génomiques répétées. L'assemblage de novo est une méthode qui n'a pas besoin de référence. Le programme présenté LOREAS, a pour but d'être un assembleur de novo en deux étapes: la première consiste à donner un ordonnancement des longues lectures, la deuxième, réaliser une séquence consensus des lectures ordonnancées. Pour le moment, seule la première étape fut réalisée. Alors que d'autres assembleurs de novo usent d'heuristiques et des graphes de De Bruijn, LOREAS est basé sur les similarités de chevauchements entre toutes les lectures. À cette fin, la programmation linéaire en nombres entiers permet de trouver le plus lourd chemin dans un graph $G= (V,E,λ)$, où V est l'ensemble des sommets qui sont les longues lectures, E l'ensemble des arcs représentant les chevauchements entre les longues lectures-pondérés par λ, la longueur de chevauchement. Si le graphe précédent est trop important, l'ensemble V est partitionné en parties distinctes, puis toutes les parties sont résolues séquentiellement. Dix génomes de bactéries simulés séquencés furent résolus pour la tâche d'ordonnancement des longues lectures. Il en résulte sept résultats positifs sur dix obtenus en moins de 12 minutes sur un ordinateur portable.

Mots clés

heaviest path problem exact algorithm Overlaps graph mathematical programming graph partitioning

Domaines

Recherche opérationnelle [math.OC] Bio-Informatique, Biologie Systémique [q-bio.QM]

Fichier principal

M1_BioInformatic_Internship_report_EPAIN_Victor.pdf (1.61 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Victor Epain : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-02413832

Soumis le : jeudi 21 mai 2020-16:16:09

Dernière modification le : vendredi 24 mars 2023-14:53:16

Dates et versions

hal-02413832 , version 1 (16-12-2019)

hal-02413832 , version 2 (07-02-2020)

hal-02413832 , version 3 (21-05-2020)

Identifiants

HAL Id : hal-02413832 , version 3

Citer

Victor Epain. De novo long reads assembly using integer linear programming. Operations Research [math.OC]. 2019. ⟨hal-02413832v3⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA INSA-RENNES IRISA CENTRALESUPELEC INRIA2 UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM

132 Consultations

146 Téléchargements

De novo long reads assembly using integer linear programming

Assemblage de novo de longues lectures par la programmation mathématique linéaire

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager