Robustesse des partitions de textes : une exploration autour de l'apport des motifs de mots.

Martine Cadot; Michel Zitt; Gabriel Meurin; Alain Lelu

Communication Dans Un Congrès Année : 2010

Robustesse des partitions de textes : une exploration autour de l'apport des motifs de mots.

(1) , (2) , (1, 3) , (4, 5)

1
2
3
4
5

Martine Cadot

Fonction : Auteur
PersonId : 9342
IdHAL : martine-cadot
IdRef : 113870906

Machine Learning and Computational Biology

Michel Zitt

Fonction : Auteur
PersonId : 855033

Laboratoire d'Études et de Recherches en Economie

Gabriel Meurin

Fonction : Auteur

Machine Learning and Computational Biology

Unité de Recherches Animal et Fonctionnalités des Produits Animaux

Alain Lelu

Fonction : Auteur
PersonId : 844123

Knowledge Information and Web Intelligence

Laboratoire de Semio-Linguistique, Didactique et Informatique

Résumé

Les partitions d'ensembles de textes peuvent être d'origine endogène - provenir d'une classification non supervisée - ou exogène, par catégorisation a priori des textes par des experts. Dans les deux cas se pose la question du caractère généralisable des catégories qu'elles expriment. Dans le cadre de la recherche d'une meilleure catégorisation des domaines scientifiques, et à partir d'un extrait significatif de la base de référence Web of Science, nous avons appliqué la méthodologie classique de l'apprentissage automatique (sous-corpus distincts: apprentissage, ajustement, test) à une partition non supervisée du domaine de la génomique. Les résultats sur cet ensemble de 120 000 résumés d'articles font la preuve d'une qualité et d'une robustesse accrues quand on caractérise chaque partition, plutôt que par de simples termes, par des motifs de termes. Ces motifs spécifiques de chaque catégorie sont extraits par notre méthode Midova de sélection et détermination de liaisons complexes entre variables booléennes par "pulvérisation" des effectifs impliqués dans chaque relation n-aire.

Domaines

Informatique et langage [cs.CL]

Fichier principal

jadt2010-1.PDF (292.06 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Alain Lelu : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00442952

Soumis le : jeudi 24 juin 2010-07:00:06

Dernière modification le : jeudi 13 avril 2023-09:26:12

Archivage à long terme le : mercredi 30 novembre 2016-10:14:33

Dates et versions

inria-00442952 , version 1 (24-06-2010)

inria-00442952 , version 2 (24-03-2012)

Identifiants

HAL Id : inria-00442952 , version 1

Citer

Martine Cadot, Michel Zitt, Gabriel Meurin, Alain Lelu. Robustesse des partitions de textes : une exploration autour de l'apport des motifs de mots.. Journées Internationales d'Analyse des Données Textuelles (JADT 2010), Sergio Bolasco, Jun 2010, Rome, Italie. ⟨inria-00442952v1⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

265 Consultations

135 Téléchargements

Robustesse des partitions de textes : une exploration autour de l'apport des motifs de mots.

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager