Robustesse des partitions de textes : une exploration autour de l'apport des motifs de mots.

Résumé : Les partitions d'ensembles de textes peuvent être d'origine endogène - provenir d'une classification non supervisée - ou exogène, par catégorisation a priori des textes par des experts. Dans les deux cas se pose la question du caractère généralisable des catégories qu'elles expriment. Dans le cadre de la recherche d'une meilleure catégorisation des domaines scientifiques, et à partir d'un extrait significatif de la base de référence Web of Science, nous avons appliqué la méthodologie classique de l'apprentissage automatique (sous-corpus distincts: apprentissage, ajustement, test) à une partition non supervisée du domaine de la génomique. Les résultats sur cet ensemble de 120 000 résumés d'articles font la preuve d'une qualité et d'une robustesse accrues quand on caractérise chaque partition, plutôt que par de simples termes, par des motifs de termes. Ces motifs spécifiques de chaque catégorie sont extraits par notre méthode Midova de sélection et détermination de liaisons complexes entre variables booléennes par "pulvérisation" des effectifs impliqués dans chaque relation n-aire.
Type de document :
Communication dans un congrès
Sergio Bolasco. Journées Internationales d'Analyse des Données Textuelles (JADT 2010), Jun 2010, Rome, Italie. 2010
Liste complète des métadonnées

https://hal.inria.fr/inria-00442952
Contributeur : Alain Lelu <>
Soumis le : samedi 24 mars 2012 - 00:20:01
Dernière modification le : lundi 19 mars 2018 - 15:08:31
Document(s) archivé(s) le : mercredi 14 décembre 2016 - 17:48:50

Fichier

JADT2010final.PDF
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00442952, version 2

Citation

Martine Cadot, Michel Zitt, Gabriel Meurin, Alain Lelu. Robustesse des partitions de textes : une exploration autour de l'apport des motifs de mots.. Sergio Bolasco. Journées Internationales d'Analyse des Données Textuelles (JADT 2010), Jun 2010, Rome, Italie. 2010. 〈inria-00442952v2〉

Partager

Métriques

Consultations de la notice

342

Téléchargements de fichiers

109