Mining and Modeling Variability from Natural Language Documents: Two Case Studies

Sana Ben Nasr

Thèse Année : 2016

Mining and Modeling Variability from Natural Language Documents: Two Case Studies

Extraction automatique de modèles de variabilité à partir de documents en langage naturel: Deux études de cas.

(1)

Sana Ben Nasr

Fonction : Auteur
PersonId : 947112

Diversity-centric Software Engineering

Résumé

Domain analysis is the process of analyzing a family of products to identify their common and variable features. This process is generally carried out by experts on the basis of existing informal documentation. When performed manually, this activity is both time-consuming and error-prone. In this thesis, our general contribution is to address mining and modeling variability from informal documentation. We adopt Natural Language Processing (NLP) and data mining techniques to identify features, commonalities, differences and features dependencies among related products. We investigate the applicability of this idea by instantiating it in two different contexts: (1) reverse engineering Feature Models (FMs) from regulatory requirements in nuclear domain and (2) synthesizing Product Comparison Matrices (PCMs) from informal product descriptions. In the first case study, we adopt NLP and data mining techniques based on semantic analysis, requirements clustering and association rules to assist experts when constructing feature models from these regulations. In the second case study, our proposed approach relies on contrastive analysis technology to mine domain specific terms from text, information extraction, terms clustering and information clustering. The main lesson learnt from the two case studies is that the exploitability and the extraction of variability knowledge depend on the context, the nature of variability and the nature of text.

L'analyse du domaine vise à identifier et organiser les caractéristiques communes et variables dans un domaine. Dans la pratique, le coût initial et le niveau d'effort manuel associés à cette analyse constituent un obstacle important pour son adoption par de nombreuses organisations qui ne peuvent en bénéficier. La contribution générale de cette thèse consiste à adopter et exploiter des techniques de traitement automatique du langage naturel et d'exploration de données pour automatiquement extraire et modéliser les connaissances relatives à la variabilité à partir de documents informels. L'enjeu est de réduire le coût opérationnel de l’analyse du domaine. Nous étudions l'applicabilité de notre idée à travers deux études de cas pris dans deux contextes différents: (1) la rétro-ingénierie des Modèles de Features (FMs) à partir des exigences réglementaires de sûreté dans le domaine de l’industrie nucléaire civil et (2) l’extraction de Matrices de Comparaison de Produits (PCMs) à partir de descriptions informelles de produits. Dans la première étude de cas, nous adoptons des techniques basées sur l’analyse sémantique, le regroupement des exigences et les règles d'association. Dans la deuxième étude de cas, notre approche repose sur la technologie d'analyse contrastive pour identifier les termes spécifiques au domaine à partir du texte, l'extraction des informations pour chaque produit, le regroupement des termes et le regroupement des informations. La principale leçon à tirer de ces deux études de cas, est que l’extraction et l’exploitation de la connaissance relative à la variabilité dépendent du contexte, de la nature de la variabilité et de la nature du texte.

Mots clés

Product lines Variability Natural language processing Data mining Information retrieval

Lignes de produits Variabilité Traitement automatique du langage naturel Exploration de données Recherche de l'information

Domaines

Informatique [cs] Génie logiciel [cs.SE]

Fichier principal

BEN NASR_Sana.pdf (4.01 Mo)

Sana Ben Nasr : Connectez-vous pour contacter le contributeur

https://inria.hal.science/tel-01388392

Soumis le : mercredi 26 octobre 2016-20:57:13

Dernière modification le : vendredi 24 mars 2023-14:53:03

Dates et versions

tel-01388392 , version 1 (26-10-2016)

Identifiants

HAL Id : tel-01388392 , version 1

Citer

Sana Ben Nasr. Mining and Modeling Variability from Natural Language Documents: Two Case Studies. Computer Science [cs]. Université Rennes 1, 2016. English. ⟨NNT : ⟩. ⟨tel-01388392⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA CENTRALESUPELEC IRISA-D4 INRIA2 UR1-THESES UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM

421 Consultations

498 Téléchargements

Mining and Modeling Variability from Natural Language Documents: Two Case Studies

Extraction automatique de modèles de variabilité à partir de documents en langage naturel: Deux études de cas.

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager