Acquisition et structuration des connaissances en corpus : éléments méthodologiques
Résumé
Ce document présente une expérimentation réalisée dans le domaine de l'agriculture. Les travaux ont été menés dans le cadre du projet ILC sur l'analyse de l'information. L'objectif de cette expérimentation est de montrer comment l'exploitation de modules automatiques de traitement de la langue basés sur la terminologie peuvent être combinés avec des modules de classification pour faire émerger de corpus volumineux de textes, des classes de termes. Ces classes sont interprétables et instancient des modèles abstraits de connaissance du domaine de spécialité que nous avons retrouvés manuellement. Nous avons traité un corpus de 1386 résumés de notices bibliographiques en anglais. La chaîne linguistique opère également sur le français.