Clustering high-throughput sequencing data with Poisson mixture models

In recent years gene expression studies have increasingly made use of next generation sequencing technology. In turn, research concerning the appropriate statistical methods for the analysis of digital gene expression has flourished, primarily in the context of normalization and differential analysis. In this work, we focus on the question of clustering digital gene expression profiles as a means to discover groups of co-expressed genes. We propose two parameterizations of a Poisson mixture model to cluster expression profiles of high-throughput sequencing data. A set of simulation studies compares the performance of the proposed models with that of an approach developed for a similar type of data, namely serial analysis of gene expression. We also study the performance of these approaches on two real high-throughput sequencing data sets. The R package HTSCluster used to implement the proposed Poisson mixture models is available on CRAN.

De plus en plus, les études d'expression de gènes utilisent les techniques de séquençage de nouvelle génération, entraînant une recherche grandissante sur les méthodes les plus appropriées pour l'exploitation des données digitales d'expression, à commencer pour leur normalisation et l'analyse différentielle. Ici, nous nous intéressons à la classification non supervisée des profils d'expression pour la découverte de groupes de gènes coexprimés. Nous proposons deux paramétrisations d'un modèle de mélange de Poisson pour classer des données de séquençage haut-débit. Par des simulations, nous comparons les performances de ces modèles avec des méthodes similaires conçus pour l'analyse en série de l'expression des gènes (SAGE). Nous étudions aussi les performances de ces modèles sur deux jeux de données réelles. Le package R HTSCluster associé à cette étude est disponible sur le CRAN.

Mots clés

EM-type algorithms Mixture models clustering co-expression RNA-seq

Domaines

Applications [stat.AP]

Fichier principal

RR-7786.pdf (665.74 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Andrea Rau : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01193758

Soumis le : jeudi 3 novembre 2011-18:26:48

Dernière modification le : mardi 12 mars 2024-10:46:06

Archivage à long terme le : samedi 4 février 2012-02:30:40

Dates et versions

hal-01193758 , version 2 (03-11-2011)

hal-01193758 , version 1 (04-09-2015)

Identifiants

HAL Id : hal-01193758 , version 2
PRODINRA : 189252

Citer

Andrea Rau, Gilles Celeux, Marie-Laure Martin-Magniette, Cathy Maugis-Rabusseau. Clustering high-throughput sequencing data with Poisson mixture models. [Research Report] RR-7786, INRIA. 2011, pp.36. ⟨hal-01193758v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

AGROPARISTECH UNIV-TLSE2 CNRS INRIA UNIV-EVRY INSA-TOULOUSE INRA INRIA-RRRT IMT LM-ORSAY UT1-CAPITOLE MIA-PARIS INRIA2 LARA IPS2 UNIV-PARIS-SACLAY INSA-GROUPE INRAE GENETIQUE_ANIMALE GS-MATHEMATIQUES UNIV-UT3 UT3-TOULOUSEINP GABI MATHNUM

1138 Consultations

1547 Téléchargements