Development of deep-learning approaches to discover metabolic interaction networks of environmental microbial communities from large metagenomic datasets, domain co-occurrence and protein coevolution

Laurent David

Résumé

The analysis of biological sequences is one of the major fields of bioinformatics. In particular, the prediction of interactions between proteins is an important step, and plays a key role in understanding the molecular environments existing within the cell. Next-generation sequencing produces raw data in two stages. First, a population of DNA fragments is extracted from a biological sample. These fragments are then sequenced at their ends to produce reads. The first challenge is to assemble these reads, either by alignment with reference genomes, or by de novo genomic assembly. This assembly/alignment is generally followed by a prediction of the coding regions and their functional annotation. This makes it possible to describe the metabolic activities existing in the sequenced organism or community, or to analyze the function of proteins involved in a particular cellular process. Over the past two decades, next-generation sequencing has led to a rapid increase in the production of biological data. Understanding and interpreting this enormous amount of data requires efficient and accurate computational approaches to extracting information from raw sequences. These approaches are increasingly oriented towards machine learning: extracting information from large datasets enables us to improve our understanding of biological mechanisms. Many studies have focused on predicting protein function and interactions. In this thesis, we attempt to answer some of these questions. This manuscript is divided into two parts. The first part focuses on the development of S3A, a targeted domain assembler for rapid functional profiling of metagenomic datasets. It aims to rapidly explore the content of large metagenomic datasets, based on functional profiling. In the second part, we present a deep neural network, IMPRINT, whose aim is to identify protein partners. I1 relies solely on sequence information and assesses the probability of interaction between two input proteins.

L’analyse des séquences biologiques constitue l’un des domaines majeur de la bioinformatique. En particulier, la prédiction des interactions entre protéines est une étape importante, et joue un rôle clé dans la compréhension des environnements moléculaires existant au sein de la cellule. La production des données brutes par le séquençage de nouvelle génération se fait en deux temps. A partir d’un échantillon biologique, une population de fragments d’ADN est d’abord extraite. Ces fragments sont ensuite séquencés à leurs extrémités pour produire des lectures. Le premier défi consiste à assembler ces lectures, soit par alignement à des génomes de référence, soit par leur assemblage génomique de novo. Cet assemblage/alignement est généralement suivi par une étape de prédiction des régions codantes et leur annotation fonctionnelle. Ceci permet de décrire les activités métaboliques existant dans l’organisme ou la communauté séquencé, ou d’analyser la fonction des protéines impliquées dans un processus cellulaire particulier. Au cours des deux dernières décennies, le séquençage de nouvelle génération a entraîné une augmentation rapide dans la production de données biologiques. Comprendre et interpréter cette énorme quantité de données nécessite des approches informatiques efficaces et précises permettant d’extraire les informations à partir des séquences brutes. Ces approches sont de plus en plus orientées vers l’apprentissage automatique : l’extraction d’informations à partir de grands ensembles de données nous permet d’améliorer notre compréhension des mécanismes biologiques. De nombreux travaux se sont intéressés à la prédiction de la fonction des protéines, ainsi qu’à leur interactions. Dans cette thèse, nous essayons de répondre en partie à ces questions. Ce manuscrit est divisé en deux parties. La première partie se concentre sur le développement de S3A, un assembleur de domaines ciblés pour un profilage fonctionnel rapide des ensembles de données métagénomiques. Il vise à explorer rapidement le contenu de grands ensembles de données métagénomiques, en se basant sur un profilage fonctionnel. Dans la seconde partie, nous présentons un réseau de neurones profond, IMPRINT, dont le but est d’identifier des partenaires protéiques. Il s’appuie uniquement sur des informations de séquence et permet d’évaluer la probabilité d’interaction entre les deux protéines données en entrée.

Development of deep-learning approaches to discover metabolic interaction networks of environmental microbial communities from large metagenomic datasets, domain co-occurrence and protein coevolution

Développement d'approches d'apprentissage profond pour découvrir les réseaux d'interactions métaboliques des communautés microbiennes environnementales à partir de vastes ensembles de données métagénomiques, co-occurrence de domaines et coévolution des protéines

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager