Performance en classification de données textuelles des passages aux urgences des modèles BERT pour le français - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2021

Performance of BERT models for French in the classification of textual data from emergency room visits

Performance en classification de données textuelles des passages aux urgences des modèles BERT pour le français

Résumé

Contextualized language models based on the Transformer architecture such as BERT (Bidirectional Encoder Representations from Transformers) have achieved remarkable performances in various language processing tasks. CamemBERT and FlauBERT are pre-trained versions for French.We used these two models to automatically classify free clinical notes from emergency department visits following a trauma. Their performances were compared to the TF-IDF (Term-Frequency - Inverse Document Frequency) method associated with the SVM (Support Vector Machine) classifier on 22481 clinical notes from the emergency department of the Bordeaux University Hospital. CamemBERT and FlauBERT obtained slightly better results than the TF-IDF/SVM couple for the micro F1-score. These encouraging results allow us to consider further developments in the use of transformers in the automation of emergency department data processing in order to consider the implementation of a national observatory of trauma in France.
Les modèles de langue contextualisés basés sur l'architecture Transformer tels que BERT (Bidirectional Encoder Representations from Transformers) ont atteint des performances remarquables dans des diverses tâches de traitement de la langue. CamemBERT et FlauBERT en sont des versions pré-entraînées pour le français. Nous avons utilisé ces deux modèles afin de classer automatiquement des notes cliniques libres issues de visites aux urgences à la suite d'un traumatisme. Leurs performances ont été comparées à la méthode TF-IDF (Term-Frequency-Inverse Document Frequency) associé au classifieur SVM (Support Vector Machine) sur 22481 notes cliniques provenant du service des urgences du CHU de Bordeaux. CamemBERT et FlauBERT ont obtenu des résultats légèrement supérieurs à ceux du couple TF-IDF/SVM pour le micro F1-score. Ces résultats encourageants permettent d'envisager l'utilisation des transformers pour automatiser le traitement des données des urgences dans le cadre de la mise en place d'un observatoire national du traumatisme en France.
Fichier principal
Vignette du fichier
IAS2021_paper_11.pdf (415.89 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03276129 , version 1 (15-12-2021)

Identifiants

  • HAL Id : hal-03276129 , version 1

Citer

Gabrielle Chenais, Hélène Touchais, Marta Avalos, Loïck Bourdois, Philippe Revel, et al.. Performance en classification de données textuelles des passages aux urgences des modèles BERT pour le français. PFIA 2021 - Journée Santé et I.A., Journée organisée avec le soutien de l’Association française d’Informatique Médicale (AIM) et le Collège Science de l’Ingénierie des Connaissances de l’AFIA dans le cadre de la Plate-Forme Intelligence Artificielle (PFIA), Jun 2021, Bordeaux / Virtual, France. ⟨hal-03276129⟩
203 Consultations
514 Téléchargements

Partager

Gmail Facebook X LinkedIn More