Concevoir et partager des workflows d’analyse de données. Application aux traitements intensifs en bioinformatique

Résumé : Dans le cadre d’une démarche d’Open science, nous nous intéressons aux systèmes de gestion de workflows (WfMS) scientifiques et à leurs applications pour l’analyse de données intensive en bioinformatique. Nous partons de l’hypothèse que les WfMS peuvent évoluer pour devenir des plates-formes pivots capables d’accélérer la mise au point et la diffusion de méthodes d’analyses innovantes. Elles pourraient capter et fédérer autour d’une thématique disciplinaire non seulement le public actuel des consommateurs de services mais aussi celui des producteurs de services. Pour cela, nous considérons que ces environnements doivent à la fois être adaptés aux pratiques des scientifiques concepteurs de méthodes et fournir un gain de productivité durant la conception et le traitement. Ces contraintes nous amènent à étudier la capture rapide des workflows, la simplification de l’intégration des tâches techniques, comme le parallélisme nécessaire au haut-débit, et la personnalisation du déploiement. Tout d’abord, nous avons défini un langage graphique DataFlow expressif, adapté à la capture rapide des workflows. Celui-ci est interprétable par un moteur de workflows basé sur un nouveau modèle de calcul doté de performances élevées, obtenues par l’exploitation des multiples niveaux de parallélisme. Nous présentons ensuite une approche de conception orientée modèle qui facilite la génération du parallélisme de données et la production d’implémentations adaptées à différents contextes d’exécution. Nous décrivons notamment l’intégration d’un métamodèle des composants et des plates-formes, employé pour automatiser la configuration des dépendances des workflows. Enfin, dans le cas du modèle Container as a Service (CaaS), nous avons élaboré une spécification de workflows intrinsèquement diffusable et ré-exécutable. L’adoption de ce type de modèle pourrait déboucher sur une accélération des échanges et de la mise à disposition des chaînes de traitements d’analyse de données.
Type de document :
Thèse
Bio-informatique [q-bio.QM]. université de rennes 1, 2015. Français
Liste complète des métadonnées

Littérature citée [154 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01233191
Contributeur : Francois Moreews <>
Soumis le : mardi 24 novembre 2015 - 16:10:37
Dernière modification le : mercredi 16 mai 2018 - 11:23:35
Document(s) archivé(s) le : samedi 29 avril 2017 - 01:51:45

Licence


Distributed under a Creative Commons Paternité - Pas d'utilisation commerciale - Pas de modification 4.0 International License

Identifiants

  • HAL Id : tel-01233191, version 1

Citation

Francois Moreews. Concevoir et partager des workflows d’analyse de données. Application aux traitements intensifs en bioinformatique. Bio-informatique [q-bio.QM]. université de rennes 1, 2015. Français. 〈tel-01233191〉

Partager

Métriques

Consultations de la notice

547

Téléchargements de fichiers

993