Contributions to indexing and retrieval using Formal Concept Analysis

Victor Codocedo-Henriquez 1
1 ORPAILLEUR - Knowledge representation, reasonning
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : Un des premiers modèles d'indexation de documents qui utilise des termes comme descripteurs était une structure de treillis, cela une vingtaine d'années avant l'arrivée de l'analyse formelle de concepts (FCA pour "Formal Concept Analysis"), qui s'affirme maintenant comme un formalisme théorique important et solide pour l'analyse de données et la découverte de connaissances. Actuellement, la communauté en recherche d'information (RI) s'intéresse particulièrement à des techniques avancées pour la recherche des documents qui relèvent des probabilités et des statistiques. En parallèle, l'intérêt de la communauté FCA au développement de techniques qui font avancer l'état de l'art en RI tout en offrant des fonctionnalités sémantiques lui est toujours bien vivant. Dans cette thèse, nous présentons un ensemble de contributions sur ce que nous avons appelé les systèmes FCA de recherche d'information ("FCA-based IR systems"). Nous avons divisé nos contributions en deux parties, à savoir l'extraction et l'indexation. Pour la récupération, nous proposons une nouvelle technique qui exploite les relations sémantiques entre les descripteurs dans un corpus de documents. Pour l'indexation, nous proposons un nouveau modèle qui permet de mettre en oeuvre un modèle vectoriel d'indexation des documents s'appuyant sur un treillis de concepts (ou treillis de Galois). En outre, nous proposons un modèle perfectionné pour l'indexation hétérogène dans lequel nous combinons le modèle vectoriel et le modèle de recherche booléen. Finalement, nous présentons une technique de fouille de données inspiré de l'indexation des documents, à savoir un modèle d'énumération exhaustive des biclusters en utilisant la FCA. Le biclustering est une nouvelle technique d'analyse de données dans laquelle les objets sont liés via la similitude dans certains attributs de l'espace de description, et non pas par tous les attributs comme dans le "clustering" standard. En traduisant ce problème en termes d'analyse formelle de concepts, nous pouvons exploiter l'algorithmique associée à la FCA pour développer une technique d'extraction de biclusters de valeurs similaires. Nous montrons le très bon comportement de notre technique, qui fonctionne mieux que les techniques actuelles de biclustering avec énumération exhaustive.
Type de document :
Thèse
Artificial Intelligence [cs.AI]. Université de Lorraine, 2015. English
Liste complète des métadonnées

Littérature citée [130 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01241474
Contributeur : Victor Codocedo <>
Soumis le : vendredi 11 décembre 2015 - 09:38:24
Dernière modification le : jeudi 11 janvier 2018 - 06:25:24
Document(s) archivé(s) le : samedi 29 avril 2017 - 10:37:15

Identifiants

  • HAL Id : tel-01241474, version 1

Citation

Victor Codocedo-Henriquez. Contributions to indexing and retrieval using Formal Concept Analysis. Artificial Intelligence [cs.AI]. Université de Lorraine, 2015. English. 〈tel-01241474〉

Partager

Métriques

Consultations de la notice

288

Téléchargements de fichiers

275