Définition d'une méthodologie d'indexation de documents textuels par étiquetage de séquences : application aux offres d'emploi

H Ramdani; A Brun; E Bonjour; D Monticolo

Communication Dans Un Congrès Année : 2020

Définition d'une méthodologie d'indexation de documents textuels par étiquetage de séquences : application aux offres d'emploi

(1, 2) , (2) , (1) , (1)

1
2

H Ramdani

Fonction : Auteur
PersonId : 1079824

Equipe de Recherche sur les Processus Innovatifs

Knowledge Information and Web Intelligence

A Brun

Fonction : Auteur

Knowledge Information and Web Intelligence

E Bonjour

Fonction : Auteur

Equipe de Recherche sur les Processus Innovatifs

D Monticolo

Fonction : Auteur

Equipe de Recherche sur les Processus Innovatifs

Résumé

Automatiser la tâche de mise en correspondance d'une offre d'emploi et d'un CV est un sujet d'intérêt dans un nombre grandissant de travaux. Elle repose sur une identification automatique du profil souhaité dans l'offre et du profil candidat dans le CV. Dans cet article, nous nous in-téressons à l'identification du profil souhaité dans l'offre et considérons cette identification comme un problème d'in-dexation de document textuel semi-structuré , rédigé en langage naturel et dont le vocabulaire est évolutif. Les ap-proches d'indexation de documents présentées dans la lit-térature prennent généralement en compte une de ces ca-ractéristiques, mais pas les trois à la fois. Dans cet article, nous proposons une méthodologie pour l'indexation au-tomatique de documents, reposant sur l'étiquetage de sé-quences et qui prend en compte l'ensemble de ces points. Cette méthodologie repose sur la création manuelle d'un corpus étiqueté, étape de la plus haute importance pour ob-tenir un étiquetage automatique de qualité. Cette méthodo-logie est validée au travers d'algorithmes d'apprentissage supervisé sur un corpus réel d'offres d'emploi. Mots-clés Indexation de textes, étiquetage de séquences, e-recrutement, indexation d'offres d'emploi, apprentissage supervisé, méthodologie. Abstract A number of research studies have focused on automate the matching of a job offers to CVs. This relies on the identification of the profile sought by the recruiter in the offer and its matching with the candidate profile in the CV. In this paper we suggest a methodology for indexing semi-structured textual documents written in natural language. Document indexing approaches presented in the literature generally take into account one of these characteristics, but not all three at once. In this paper, we propose a methodology for document indexing, based on sequence labeling, that allows all of these points to be taken into account. This methodology is based on the creation of a learning corpus. This methodology is validated through supervised learning algorithms on a real corpus of job offers.

Mots clés

Automatic text indexing sequence labeling e-recruitment job offer indexing supervised learning methodology

Domaines

Intelligence artificielle [cs.AI]

Armelle Brun : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-02974679

Soumis le : jeudi 22 octobre 2020-15:15:36

Dernière modification le : lundi 25 septembre 2023-12:36:03

Dates et versions

hal-02974679 , version 1 (22-10-2020)

Identifiants

HAL Id : hal-02974679 , version 1

Citer

H Ramdani, A Brun, E Bonjour, D Monticolo. Définition d'une méthodologie d'indexation de documents textuels par étiquetage de séquences : application aux offres d'emploi. Conférence Nationale sur les Applications Pratiques de l’Intelligence Artificielle - APIA 2020, Jun 2020, Angers, France. ⟨hal-02974679⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE LORIA LORIA-AIS ERPI-UL EMPP-UL

209 Consultations

0 Téléchargements

Définition d'une méthodologie d'indexation de documents textuels par étiquetage de séquences : application aux offres d'emploi

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager