Définition d'une méthodologie d'indexation de documents textuels par étiquetage de séquences : application aux offres d'emploi - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Définition d'une méthodologie d'indexation de documents textuels par étiquetage de séquences : application aux offres d'emploi

Résumé

Automatiser la tâche de mise en correspondance d'une offre d'emploi et d'un CV est un sujet d'intérêt dans un nombre grandissant de travaux. Elle repose sur une identification automatique du profil souhaité dans l'offre et du profil candidat dans le CV. Dans cet article, nous nous in-téressons à l'identification du profil souhaité dans l'offre et considérons cette identification comme un problème d'in-dexation de document textuel semi-structuré , rédigé en langage naturel et dont le vocabulaire est évolutif. Les ap-proches d'indexation de documents présentées dans la lit-térature prennent généralement en compte une de ces ca-ractéristiques, mais pas les trois à la fois. Dans cet article, nous proposons une méthodologie pour l'indexation au-tomatique de documents, reposant sur l'étiquetage de sé-quences et qui prend en compte l'ensemble de ces points. Cette méthodologie repose sur la création manuelle d'un corpus étiqueté, étape de la plus haute importance pour ob-tenir un étiquetage automatique de qualité. Cette méthodo-logie est validée au travers d'algorithmes d'apprentissage supervisé sur un corpus réel d'offres d'emploi. Mots-clés Indexation de textes, étiquetage de séquences, e-recrutement, indexation d'offres d'emploi, apprentissage supervisé, méthodologie. Abstract A number of research studies have focused on automate the matching of a job offers to CVs. This relies on the identification of the profile sought by the recruiter in the offer and its matching with the candidate profile in the CV. In this paper we suggest a methodology for indexing semi-structured textual documents written in natural language. Document indexing approaches presented in the literature generally take into account one of these characteristics, but not all three at once. In this paper, we propose a methodology for document indexing, based on sequence labeling, that allows all of these points to be taken into account. This methodology is based on the creation of a learning corpus. This methodology is validated through supervised learning algorithms on a real corpus of job offers.
Fichier non déposé

Dates et versions

hal-02974679 , version 1 (22-10-2020)

Identifiants

  • HAL Id : hal-02974679 , version 1

Citer

H Ramdani, A Brun, E Bonjour, D Monticolo. Définition d'une méthodologie d'indexation de documents textuels par étiquetage de séquences : application aux offres d'emploi. Conférence Nationale sur les Applications Pratiques de l’Intelligence Artificielle - APIA 2020, Jun 2020, Angers, France. ⟨hal-02974679⟩
209 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More