Apprentissage d'une classification thématique générique et cross-langue à partir des catégories de la Wikipédia - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2013

Apprentissage d'une classification thématique générique et cross-langue à partir des catégories de la Wikipédia

François-Régis Chaumartin
  • Fonction : Auteur
  • PersonId : 870794

Résumé

Cross-lingual and generic text categorization. Text categorization usually requires a significant investment, which must often be associated to a field adaptation. The approach we propose here allows to finely associate a graph of Wikipedia categories to any text written in a given language. Moreover, the inter-lingual index of the online encyclopedia allows to get a subset of this graph in most other languages.
La catégorisation de textes nécessite généralement un investissement important en amont, avec une adaptation de domaine. L'approche que nous proposons ici permet d'associer finement à un texte tout-venant écrit dans une langue donnée, un graphe de catégories de la Wikipédia dans cette langue. L'utilisation de l'index inter-langues de l'encyclopédie en ligne permet de plus d'obtenir un sous-ensemble de ce graphe dans la plupart des autres langues.
Fichier principal
Vignette du fichier
taln-2013-court-020.pdf (509.46 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-00851794 , version 1 (18-08-2013)

Identifiants

  • HAL Id : hal-00851794 , version 1

Citer

François-Régis Chaumartin. Apprentissage d'une classification thématique générique et cross-langue à partir des catégories de la Wikipédia. TALN - Traitement Automatique des Langues Naturelles - 2013, ATALA, Jun 2013, Les Sables d'Olonne, France. pp.659-666. ⟨hal-00851794⟩
303 Consultations
177 Téléchargements

Partager

Gmail Facebook X LinkedIn More