Instanciation de relations n-aires dans des articles scientifiques guidée par une ressource termino-ontologique de domaine

Martin Lentschat

Résumé

This thesis belongs to the research field of smart data, where we search for specific information within large documents.It proposes new methods of representation and extraction of experimental data from scientific articles, more specifically in the domain of food packaging.The experimental data can be represented as n-Ary relations composed of symbolic and quantitative arguments.The latter are composed of a numerical value and a unit of measurement.The objective of this thesis is to populate a knowledge base with instances of N-Ary relations extracted from scientific textual documents.The proposed approach is based on an Ontological and Terminological Resource (OTR) and is divided into two Phases:(1) the recognition and extraction of argument instances of interest and(2) the linking of these instances in n-Ary relations.Phase (1) proposes an original representation of the extracted argument instances, called SciPuRe (Scientific Publication Representation).It integrates ontological, lexical and structural descriptors that describe the context of the argument instances and allows to sort them by their relevance.Phase (2) relies on the information present in the tables of the documents, extracted automatically, to guide the extraction of partial n-Arye relations, the tables containing an important part of the experimental data in the scientific articles.These partial relations are then completed with the argument instances recognized in Phase (1).Three approaches are proposed and evaluated in order to identify the argument instances that should complete the relations: the use of document structure, the analysis of cooccurrences between the argument instances in the texts, and finally the use of textit{word-embedding} models allowing to measure the similarities between the candidate argument instances and the arguments already filled in the partial relations.Our results show the importance of sorting the relevant instances after argument recognition in Phase (1) using SciPuRe features.Our experiments show that the two most important criteria for determining the relevance of a symbolic argument instance are the specificity of the concept associated with the argument in the OTR and its frequency in the document.For quantitative arguments, it is the apparition of the argument instance in sections of the documents that determines its relevance.Our experiments on Phase (2) confirm the usefulness of the relevance scores computed in Phase (1) to discriminate the instances.The analysis of the results with different filtering of the candidate argument instances according to their relevance shows a clear positive effect when filtering the fifth of the instances with the lowest relevance.Our experiments also consider the possibility of selecting multiple candidates for each missing argument instance in a partial relation, in an approach to assist domain experts who can then determine the valid instance.When selecting a single candidate, the approach based on co-occurrence analyses gives the best results in detecting the valid candidate argument instance.With a larger selection of three or five candidates, semantic similarity analysis enabled by BERT word embeddings model provides good results for detecting associations between the argument instances present in partial relations and the candidate argument instances for relation completion.Finally, when selecting ten candidates, the experiments show that the approach based on document structure is effective to complete the n-Ary relations.

Cette thèse vise à proposer de nouvelles méthodes de représentation et d’extraction de données expérimentales à partir d’articles scientifiques.Ces méthodes ont été évaluées sur un corpus d’articles dans le domaine des emballages alimentaires.L’objectif de cette thèse est de peupler une base de connaissances d’instances de relations N-Aires extraites de documents scientifiques textuels.Les données expérimentales peuvent être représentées sous forme de relations n-Aires composées d’arguments symboliques et quantitatifs.L’approche proposée s’appuie sur une Ressource Termino-Ontologique (RTO) et se décompose en deux Phases : (1) la reconnaissance et l’extraction des instances d’arguments et (2) la mise en relation de celles-ci dans des relations n-Aires.La Phase (1) propose une représentation originale des instances d’arguments extraites, appelée SciPuRe (Scientifique Publication Representation).Celle-ci intègre des descripteurs ontologiques, lexicaux et structurels qui décrivent le contexte d’apparition des instances d’arguments et permettent de les trier selon leurs pertinences.Nos résultats montrent l’importance du tri des instances pertinentes à l’issue de la reconnaissance des arguments, les deux critères les plus importants pour déterminer la pertinence d’une instance d’argument symbolique sont la spécificité du concept associé à l’argument dans la RTO et sa fréquence dans le document.Pour les arguments quantitatifs, c’est l’appartenance de l’instance d’argument à des sections des documents qui permet de déterminer sa pertinence.La Phase (2) s’appuie sur les informations présentes dans les tableaux des documents pour guider l’extraction des relations n-Aires à partir de relations partielles.Ces relations partielles sont ensuite complétées par les instances d’arguments reconnues lors de la Phase (1).Trois approches sont proposées et évaluées afin d’identifier les instances d’arguments qui doivent compléter les relations :l’utilisation de la structure des documents, l’analyse des cooccurrences entre les instances d’arguments dans les textes, et enfin l’utilisation de modèles de word-embedding permettant de mesurer les similarités entre les instances d’arguments candidates et les arguments déjà renseignés dans les relations partielles.Nos expérimentations sur la Phase (2) confirment l’utilité des scores de pertinence calculés lors de la Phase (1) pour discriminer les instances d'arguments.L’analyse des résultats avec différents filtrages des instances d’arguments candidates selon leurs pertinences montre un net effet positif lors du filtrage de 20% des instances avec les pertinences les plus faibles.Nous avons également expérimenté la possibilité de sélectionner plusieurs candidats pour chaque instance d’argument manquante dans une relation partielle, dans une approche d’assistance aux experts du domaine qui peuvent ensuite déterminer l’instance valide.Lors de la sélection d’un seul candidat, l’approche fondée sur les analyses des cooccurrences donne les meilleurs résultats pour détecter l’instance d’argument candidate valide.Avec une sélection plus importante, de trois ou cinq candidats, l’analyse des similarités sémantiques permise par des modèles BERT de plongement lexicaux fournit de bons résultats pour la détection d’associations entre les instances d’arguments présentes dans les relations partielles et les instances d’argument candidates à la complétion des relations.Enfin, lors de la sélection de dix candidats, les expérimentations montrent que l’approche fondée sur la structure des documents est efficace pour compléter les relations n-Aires.

Instantiation of n-Aires relationships in scientific articles guided by a domain termino-ontological resource

Instanciation de relations n-aires dans des articles scientifiques guidée par une ressource termino-ontologique de domaine

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager