Performance en classification de données textuelles des passages aux urgences des modèles BERT pour le français

Gabrielle Chenais; Hélène Touchais; Marta Avalos; Loïck Bourdois; Philippe Revel; Cédric Gil-Jardiné; Emmanuel Lagarde

Communication Dans Un Congrès Année : 2021

Performance of BERT models for French in the classification of textual data from emergency room visits

Performance en classification de données textuelles des passages aux urgences des modèles BERT pour le français

(1, 2) , (1, 2) , (3, 2, 1, 4) , (1, 2) , (1, 5, 2) , (1, 5, 2) , (1, 2)

1
2
3
4
5

Gabrielle Chenais

Fonction : Auteur

Bordeaux population health

Université de Bordeaux

Hélène Touchais

Fonction : Auteur

Bordeaux population health

Université de Bordeaux

Marta Avalos

Fonction : Auteur
PersonId : 742122
IdHAL : mavalosf
ORCID : 0000-0002-5471-2615
IdRef : 153689293

Statistics In System biology and Translational Medicine

Université de Bordeaux

Bordeaux population health

Inria Bordeaux - Sud-Ouest

Loïck Bourdois

Fonction : Auteur

Bordeaux population health

Université de Bordeaux

Philippe Revel

Fonction : Auteur

Bordeaux population health

CHU de Bordeaux Pellegrin [Bordeaux]

Université de Bordeaux

Cédric Gil-Jardiné

Fonction : Auteur

Bordeaux population health

CHU de Bordeaux Pellegrin [Bordeaux]

Université de Bordeaux

Emmanuel Lagarde

Fonction : Auteur
PersonId : 1151175
ORCID : 0000-0001-8031-7400
IdRef : 110886410

Bordeaux population health

Université de Bordeaux

Résumé

Contextualized language models based on the Transformer architecture such as BERT (Bidirectional Encoder Representations from Transformers) have achieved remarkable performances in various language processing tasks. CamemBERT and FlauBERT are pre-trained versions for French.We used these two models to automatically classify free clinical notes from emergency department visits following a trauma. Their performances were compared to the TF-IDF (Term-Frequency - Inverse Document Frequency) method associated with the SVM (Support Vector Machine) classifier on 22481 clinical notes from the emergency department of the Bordeaux University Hospital. CamemBERT and FlauBERT obtained slightly better results than the TF-IDF/SVM couple for the micro F1-score. These encouraging results allow us to consider further developments in the use of transformers in the automation of emergency department data processing in order to consider the implementation of a national observatory of trauma in France.

Les modèles de langue contextualisés basés sur l'architecture Transformer tels que BERT (Bidirectional Encoder Representations from Transformers) ont atteint des performances remarquables dans des diverses tâches de traitement de la langue. CamemBERT et FlauBERT en sont des versions pré-entraînées pour le français. Nous avons utilisé ces deux modèles afin de classer automatiquement des notes cliniques libres issues de visites aux urgences à la suite d'un traumatisme. Leurs performances ont été comparées à la méthode TF-IDF (Term-Frequency-Inverse Document Frequency) associé au classifieur SVM (Support Vector Machine) sur 22481 notes cliniques provenant du service des urgences du CHU de Bordeaux. CamemBERT et FlauBERT ont obtenu des résultats légèrement supérieurs à ceux du couple TF-IDF/SVM pour le micro F1-score. Ces résultats encourageants permettent d'envisager l'utilisation des transformers pour automatiser le traitement des données des urgences dans le cadre de la mise en place d'un observatoire national du traumatisme en France.

Mots clés

Emergency Natural Langage Processing multi-class classification SVM Artificial Intelligence

Urgences SVM classification supervisée multi-classe TF-IDF FlauBERT CamemBERT Traitement automatique du langage

Domaines

Machine Learning [stat.ML] Méthodologie [stat.ME] Calcul [stat.CO] Applications [stat.AP] Apprentissage [cs.LG] Santé publique et épidémiologie Intelligence artificielle [cs.AI] Automatique

Fichier principal

IAS2021_paper_11.pdf (415.89 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Marta Avalos : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-03276129

Soumis le : mercredi 15 décembre 2021-15:39:34

Dernière modification le : jeudi 14 mars 2024-15:02:48

Archivage à long terme le : mercredi 16 mars 2022-18:04:45

Dates et versions

hal-03276129 , version 1 (15-12-2021)

Identifiants

HAL Id : hal-03276129 , version 1

Citer

Gabrielle Chenais, Hélène Touchais, Marta Avalos, Loïck Bourdois, Philippe Revel, et al.. Performance en classification de données textuelles des passages aux urgences des modèles BERT pour le français. PFIA 2021 - Journée Santé et I.A., Journée organisée avec le soutien de l’Association française d’Informatique Médicale (AIM) et le Collège Science de l’Ingénierie des Connaissances de l’AFIA dans le cadre de la Plate-Forme Intelligence Artificielle (PFIA), Jun 2021, Bordeaux / Virtual, France. ⟨hal-03276129⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSERM INRIA INRIA2 U1219

203 Consultations

514 Téléchargements

Performance of BERT models for French in the classification of textual data from emergency room visits

Performance en classification de données textuelles des passages aux urgences des modèles BERT pour le français

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager