Skip to Main content Skip to Navigation
Conference papers

Outils statistiques pour la sélection de variables et l'intégration de données 'omiques'

Résumé : Les récentes avancées biotechnologiques permettent maintenant de mesurer une quantité massive de données biologiques de différentes sources (données génomiques, protéomiques, métabolomiques, phénotypiques), souvent caractérisées par un petit nombre d'échantillons. Ce type de données représente un challenge à la fois pour le statisticien, dont l'inférence de résultats fiables est limitée du fait du petit nombre d'échantillon et de variables généralement très bruités; mais aussi pour le biologiste, qui a besoin de nouveaux outils statistiques pour analyser ces jeux de données et répondre à la question biologique posée. La sélection de variables est donc cruciale pour les deux interlocuteurs. Tout d'abord, nous nous intéressons spécifiquement aux données de transcriptome et à la sélection de gènes prédictifs ou discriminants dans un cadre de classification supervisée. Pour cela nous proposons une approche de sélection de variables de type wrapper agrégeant les méthodes de classification tels que CART ou SVM. Ensuite, dans le cadre d'approches exploratoires, nous cherchons à sélectionner des variables de types différents pour mettre en valeur les relations entre deux tableaux de données omiques. Pour cela nous avons développé une approche sparse PLS avec pénalisation l1 qui permet de sélectionner des sous-ensembles de variables conjointement mesurées sur les mêmes échantillons biologiques. Nous évaluons les approches proposées sur de nombreux jeux de données réels. Les critères statistiques usuels que nous appliquons sont souvent limités par le petit nombre d'échantillons et ne permettent pas toujours une évaluation statistique fiable. Nous soulignons dans ce travail l'importance de l'interprétation biologique des resultats.
Document type :
Conference papers
Complete list of metadata

https://hal.inria.fr/inria-00386803
Contributor : Conférence Jds2009 <>
Submitted on : Friday, May 22, 2009 - 9:22:45 AM
Last modification on : Friday, June 11, 2021 - 12:32:02 PM

Identifiers

  • HAL Id : inria-00386803, version 1
  • PRODINRA : 249700

Citation

Kim-Anh Lê Cao, Christèle Robert-Granié, Philippe Besse. Outils statistiques pour la sélection de variables et l'intégration de données 'omiques'. 41èmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux, France, France. ⟨inria-00386803⟩

Share

Metrics

Record views

341