Apprentissage d'une classification thématique générique et cross-langue à partir des catégories de la Wikipédia

Résumé : La catégorisation de textes nécessite généralement un investissement important en amont, avec une adaptation de domaine. L'approche que nous proposons ici permet d'associer finement à un texte tout-venant écrit dans une langue donnée, un graphe de catégories de la Wikipédia dans cette langue. L'utilisation de l'index inter-langues de l'encyclopédie en ligne permet de plus d'obtenir un sous-ensemble de ce graphe dans la plupart des autres langues.
Type de document :
Communication dans un congrès
TALN - Traitement Automatique des Langues Naturelles - 2013, Jun 2013, Les Sables d'Olonne, France. 1, pp.659-666, 2013, TALN
Liste complète des métadonnées

Littérature citée [8 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00851794
Contributeur : François-Régis Chaumartin <>
Soumis le : dimanche 18 août 2013 - 21:39:20
Dernière modification le : lundi 19 août 2013 - 15:36:47
Document(s) archivé(s) le : mardi 19 novembre 2013 - 04:11:35

Fichier

taln-2013-court-020.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : hal-00851794, version 1

Citation

François-Régis Chaumartin. Apprentissage d'une classification thématique générique et cross-langue à partir des catégories de la Wikipédia. TALN - Traitement Automatique des Langues Naturelles - 2013, Jun 2013, Les Sables d'Olonne, France. 1, pp.659-666, 2013, TALN. 〈hal-00851794〉

Partager

Métriques

Consultations de la notice

307

Téléchargements de fichiers

138