Outils statistiques pour la sélection de variables et l'intégration de données 'omiques'

Résumé : Les récentes avancées biotechnologiques permettent maintenant de mesurer une quantité massive de données biologiques de différentes sources (données génomiques, protéomiques, métabolomiques, phénotypiques), souvent caractérisées par un petit nombre d'échantillons. Ce type de données représente un challenge à la fois pour le statisticien, dont l'inférence de résultats fiables est limitée du fait du petit nombre d'échantillon et de variables généralement très bruités; mais aussi pour le biologiste, qui a besoin de nouveaux outils statistiques pour analyser ces jeux de données et répondre à la question biologique posée. La sélection de variables est donc cruciale pour les deux interlocuteurs. Tout d'abord, nous nous intéressons spécifiquement aux données de transcriptome et à la sélection de gènes prédictifs ou discriminants dans un cadre de classification supervisée. Pour cela nous proposons une approche de sélection de variables de type wrapper agrégeant les méthodes de classification tels que CART ou SVM. Ensuite, dans le cadre d'approches exploratoires, nous cherchons à sélectionner des variables de types différents pour mettre en valeur les relations entre deux tableaux de données omiques. Pour cela nous avons développé une approche sparse PLS avec pénalisation l1 qui permet de sélectionner des sous-ensembles de variables conjointement mesurées sur les mêmes échantillons biologiques. Nous évaluons les approches proposées sur de nombreux jeux de données réels. Les critères statistiques usuels que nous appliquons sont souvent limités par le petit nombre d'échantillons et ne permettent pas toujours une évaluation statistique fiable. Nous soulignons dans ce travail l'importance de l'interprétation biologique des resultats.
Type de document :
Communication dans un congrès
41èmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux, France, France. 2009
Liste complète des métadonnées

https://hal.inria.fr/inria-00386803
Contributeur : Conférence Jds2009 <>
Soumis le : vendredi 22 mai 2009 - 09:22:45
Dernière modification le : mardi 16 janvier 2018 - 17:56:01

Identifiants

  • HAL Id : inria-00386803, version 1

Citation

Kim-Anh Lê Cao, Christèle Robert-Granié, Philippe Besse. Outils statistiques pour la sélection de variables et l'intégration de données 'omiques'. 41èmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux, France, France. 2009. 〈inria-00386803〉

Partager

Métriques

Consultations de la notice

215