Une approche entropie maximale pour le découpage en phrases des textes en français

Hong Phuong Le 1 Azim Roussanaly 1
1 KIWI - Knowledge Information and Web Intelligence
LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Dans cet article, nous proposons une étude de cas de l'approche entropie maximale pour le découpage en phrases d'un texte en français. Au contraire de systèmes de découpage basés sur les règles prédéfinies comme le système INTEX, la procédure d'apprentissage de notre système ne requiert aucune règle prédéfinie manuellement, ni de lexique, ni d'informations spécifiques. Etant donné un corpus étiqueté avec les limites des phrases, le système apprend à classifier chaque occurrence de ponctuation comme étant une vraie ou fausse limite de phrase. La performance du système sur un corpus français est comparable aux résultats du système INTEX, 98, 5% pour la précision.
Type de document :
Rapport
[Rapport de recherche] 2009
Liste complète des métadonnées

https://hal.inria.fr/inria-00448841
Contributeur : Phuong Le-Hong <>
Soumis le : mercredi 20 janvier 2010 - 11:29:29
Dernière modification le : mardi 24 avril 2018 - 13:34:51

Identifiants

  • HAL Id : inria-00448841, version 1

Collections

Citation

Hong Phuong Le, Azim Roussanaly. Une approche entropie maximale pour le découpage en phrases des textes en français. [Rapport de recherche] 2009. 〈inria-00448841〉

Partager

Métriques

Consultations de la notice

139