Perspectives de normalisation pour les corpus et lexiques multilingues

Laurent Romary 1
1 LANGUE ET DIALOGUE - Human-machine dialogue with a significant language component
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Afin d'effectuer des recherches de plus en plus fines sur la langue, il est nécessaire de disposer d'une infrastructure stable mais flexible pour représenter différents types de ressources linguistiques : corpus annotés et lexiques. Au delà de la simple représentation de données primaires, pour lesquelles le cadre de la TEI (Text Encoding Initiative) est maintenant bien reconnu, je présenterai les grandes lignes d'action du nouveau comité TC 37/SC 4 de l'ISO qui travaille d'une part sur la modélisation d'annotations multi-niveaux et de ressources linguistiques multilingues. Je présenterai en particulier le projet de mise en oeuvre d'un registre de catégories de données en linguistique qui, dans une perspective internationale, devrait permettre de disposer d'un référentiel de comparaison de différents schémas d'annotation ou de bases lexicales. Je finirai en montrant comment de tels standards devraient nous permettre de mieux échanger des données et des outils au sein des communautés de linguistique et de traitement des langues, en m'appuyant sur l'expérience en cours d'espace libre de gestion de ressources linguistiques pour le français FReeBank.
Type de document :
Communication dans un congrès
Lexicométrie et corpus multilingues - JADT 2004, 2004, Louvain-la-Neuve, Belgique. 2004
Liste complète des métadonnées

https://hal.inria.fr/inria-00100192
Contributeur : Laurent Romary <>
Soumis le : mardi 26 septembre 2006 - 10:15:19
Dernière modification le : jeudi 11 janvier 2018 - 06:19:48

Identifiants

  • HAL Id : inria-00100192, version 1

Collections

Citation

Laurent Romary. Perspectives de normalisation pour les corpus et lexiques multilingues. Lexicométrie et corpus multilingues - JADT 2004, 2004, Louvain-la-Neuve, Belgique. 2004. 〈inria-00100192〉

Partager

Métriques

Consultations de la notice

118