Surface Realisation from Knowledge Bases

Bikash Gyawali 1
1 SYNALP - Natural Language Processing : representations, inference and semantics
LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : La Génération Automatique de Langue Naturelle (GLN) vise à produire des textes ou de la parole dans une langue humaine à partir d'un ensemble de données non-linguistiques. Elle comprend généralement trois sous-tâches principales: (i) sélection et organisation d'un sous-ensemble des données d'entrée; ii) détermination des mots à utiliser pour verbaliser les données d'entrée; et (iii) regroupement de ces mots en un texte en langue naturelle. La dernière sous-tâche est connue comme la tâche de Réalisation de Surface (RS). Dans ma thèse, j'étudie la tâche de réalisation de surface quand les données d'entrée sont extraites de Bases de Connaissances (BC). Je présente deux nouvelles approches pour la réalisation de surface à partir de bases de connaissances: une approche supervisée et une approche faiblement supervisée. Dans l'approche supervisée, je présente une méthode basée sur des corpus pour induire une Grammaire d’Arbres Adjoints basée sur les traits (Feature Based Lexicalized Tree Adjoining Grammar (FB-LTAG)) à partir d'un corpus parallèle de textes et de données. La grammaire FB-LTAG résultante inclut une sémantique compositionnelle basée sur l'unification et peut être utilisée par un réalisateur de surface existant pour produire des phrases à partir des données de test. Je montre que la grammaire induite est compacte et suffisament générale pour traiter les données de test. L'approche donne des résultats qui sont proches de ceux produits par une approche symbolique développée manuellement et qui surpassent une approche statistique alternative. Dans l'approche faiblement supervisée, j'explore une méthode pour la réalisation de surface à partir de données extraites d'une base de connaissances qui utilise un lexique mais ne requière pas de corpus parallèle. A la place, je construis un corpus de textes liés au domaine et l'utilise pour identifier les lexicalisations possibles des symboles de la base de connaissances (classes et relations) et leurs modes de verbalisation (cadres de sous-catégorisation). Sur la base des observations faites, je construis différents modèles probabilistes qui sont utilisés pour la sélection des cadres appropriés et de l'interface syntaxe / sémantique utilisés pour verbaliser les entrées de la base de connaissances. J'évalue les phrases générées et analyse les questions relatives à l'apprentissage à partir de corpus non-alignés. Dans chacune de ces approches, j'utilise des données dérivées d'une ontologie biomédicale existante comme référence d'entrée. Les méthodes proposées sont génériques et peuvent être facilement adaptées pour une entrée à partir d'autres ontologies pour lesquelles un corpus parallèle/non-parallèle existe.
Liste complète des métadonnées

Littérature citée [89 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01754499
Contributeur : Gyawali Bikash <>
Soumis le : jeudi 18 février 2016 - 16:05:09
Dernière modification le : mardi 24 avril 2018 - 13:54:26
Document(s) archivé(s) le : jeudi 19 mai 2016 - 11:00:45

Fichier

Identifiants

  • HAL Id : tel-01754499, version 2

Citation

Bikash Gyawali. Surface Realisation from Knowledge Bases. Computation and Language [cs.CL]. Université de Lorraine, 2016. English. 〈NNT : 2016LORR0004〉. 〈tel-01754499v2〉

Partager

Métriques

Consultations de la notice

361

Téléchargements de fichiers

906