Perspectives de normalisation pour les corpus et lexiques multilingues

Laurent Romary 1
1 LANGUE ET DIALOGUE - Human-machine dialogue with a significant language component
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Afin d'effectuer des recherches de plus en plus fines sur la langue, il est nécessaire de disposer d'une infrastructure stable mais flexible pour représenter différents types de ressources linguistiques : corpus annotés et lexiques. Au delà de la simple représentation de données primaires, pour lesquelles le cadre de la TEI (Text Encoding Initiative) est maintenant bien reconnu, je présenterai les grandes lignes d'action du nouveau comité TC 37/SC 4 de l'ISO qui travaille d'une part sur la modélisation d'annotations multi-niveaux et de ressources linguistiques multilingues. Je présenterai en particulier le projet de mise en oeuvre d'un registre de catégories de données en linguistique qui, dans une perspective internationale, devrait permettre de disposer d'un référentiel de comparaison de différents schémas d'annotation ou de bases lexicales. Je finirai en montrant comment de tels standards devraient nous permettre de mieux échanger des données et des outils au sein des communautés de linguistique et de traitement des langues, en m'appuyant sur l'expérience en cours d'espace libre de gestion de ressources linguistiques pour le français FReeBank.
Document type :
Conference papers
Liste complète des métadonnées

https://hal.inria.fr/inria-00100192
Contributor : Laurent Romary <>
Submitted on : Tuesday, September 26, 2006 - 10:15:19 AM
Last modification on : Monday, April 8, 2019 - 10:24:04 AM

Identifiers

  • HAL Id : inria-00100192, version 1

Collections

Citation

Laurent Romary. Perspectives de normalisation pour les corpus et lexiques multilingues. Lexicométrie et corpus multilingues - JADT 2004, 2004, Louvain-la-Neuve, Belgique. ⟨inria-00100192⟩

Share

Metrics

Record views

137