Skip to Main content Skip to Navigation
Conference papers

Enrichissement de requêtes pour la recherche documentaire selon une classification non supervisée

Résumé : Une difficulté majeure dans l'utilisation d'un système de recherche documentaire est le choix du vocabulairè a employer pour exprimer une requête. L'enrichisse-ment de la requête peut prendre plusieurs formes : ajout de mots extraits automatiquement des documents rapportés, réestimation des poids attribuésà chacun des mots de la requête initiale, etc. Le système de re-cherche documentaire SIAC est utilisé pour extraire un premier jeu de documentsà partir d'une requête. Une méthode de classification non supervisée,à base d'arbres de décision, est ensuite exploitée pour clas-ser les phrases des documents trouvés selon qu'elles contiennent ou non certains mots extraits automa-tiquement de l'ensemble des documents rapportés.À chaque noeud de l'arbre, peutêtre associée une expression booléenne mettant en jeu les mots sélectionnés lors de la classification. Nous montrons,à l'aide des données de la seconde campagne d'évaluation Amaryl-lis, que la réécriture de la requête suivant les expressions booléennes correspondant aux meilleures feuilles permet d'améliorer la précision de la recherche docu-mentaire. Mots Clef Recherche documentaire, enrichissement de requête, classification automatique, arbres de décision non su-pervisés. Abstract Natural language query formulation is a crucial task in the information retrieval (IR) process. Automatic expanding and refining of queries can be realized in different ways : extracting some words from top retrieved documents (retrieval feedback) or from thesauri, computing new query term weights according to top retrieved documents... In this paper, the information retrieval system SIAC is employed to obtain an initial set of documents from a query. Then, a classification method employing unsupervised decision trees (UDTs) is performed to classify the document retrieved sentences according to some words extracted automatically from these documents (some sentences contain the chosen words, some do not). A boolean expression composed of these selected words is directly associated to each decision tree node. This paper shows that expanding queries with the words connected with the best nodes allows to significantly improve retrieval precision.
Document type :
Conference papers
Complete list of metadata

Cited literature [16 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-02171021
Contributor : Christian Raymond Connect in order to contact the contributor
Submitted on : Tuesday, July 2, 2019 - 3:28:30 PM
Last modification on : Wednesday, October 14, 2020 - 4:13:15 AM

File

RFIA.PDF
Files produced by the author(s)

Identifiers

  • HAL Id : hal-02171021, version 1

Collections

Citation

Christian Raymond, Patrice Bellot, Marc El-Bèze. Enrichissement de requêtes pour la recherche documentaire selon une classification non supervisée. 13ème Congrès Francophone AFRIF-AFIA de Reconnaissance des Formes et d'Intelligence Artificielle (RFIA'2002), 2002, Angers, France. p. 625 à 632. ⟨hal-02171021⟩

Share

Metrics

Record views

76

Files downloads

32