Une approche entropie maximale pour le découpage en phrases des textes en français
Résumé
Dans cet article, nous proposons une étude de cas de l'approche entropie maximale pour le découpage en phrases d'un texte en français. Au contraire de systèmes de découpage basés sur les règles prédéfinies comme le système INTEX, la procédure d'apprentissage de notre système ne requiert aucune règle prédéfinie manuellement, ni de lexique, ni d'informations spécifiques. Etant donné un corpus étiqueté avec les limites des phrases, le système apprend à classifier chaque occurrence de ponctuation comme étant une vraie ou fausse limite de phrase. La performance du système sur un corpus français est comparable aux résultats du système INTEX, 98, 5% pour la précision.