Les textes cliniques français générés sont-ils dangereusement similaires à leur source ? Analyse par plongements de phrases - Inria - Institut national de recherche en sciences et technologies du numérique Access content directly
Conference Papers Year : 2023

Les textes cliniques français générés sont-ils dangereusement similaires à leur source ? Analyse par plongements de phrases

Abstract

Les ressources textuelles disponibles dans le domaine biomédical sont rares pour des raisons de confidentialité. Des données existent mais ne sont pas partageables, c'est pourquoi il est intéressant de s'inspirer de ces données pour en générer de nouvelles sans contrainte de partage. Une difficulté majeure de la génération de données médicales est que les données générées doivent ressembler aux données originales sans compromettre leur confidentialité. L'évaluation de cette tâche est donc difficile. Dans cette étude, nous étendons l'évaluation de corpus cliniques générés en français en y ajoutant une dimension sémantique à l'aide de plongements de phrases. Nous recherchons des phrases proches à l'aide de similarité cosinus entre plongements, et analysons les scores de similarité. Nous observons que les phrases synthétiques sont thématiquement proches du corpus original, mais suffisamment éloignées pour ne pas être de simples reformulations qui compromettraient la confidentialité.
Fichier principal
Vignette du fichier
461752.pdf (328.32 Ko) Télécharger le fichier
Origin : Publisher files allowed on an open archive

Dates and versions

hal-04130203 , version 1 (20-06-2023)

Licence

Attribution

Identifiers

  • HAL Id : hal-04130203 , version 1

Cite

Nicolas Hiebel, Olivier Ferret, Karën Fort, Aurélie Névéol. Les textes cliniques français générés sont-ils dangereusement similaires à leur source ? Analyse par plongements de phrases. 18e Conférence en Recherche d'Information et Applications -- 16e Rencontres Jeunes Chercheurs en RI -- 30e Conférence sur le Traitement Automatique des Langues Naturelles -- 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, 2023, Paris, France. pp.46-54. ⟨hal-04130203⟩
76 View
27 Download

Share

Gmail Facebook X LinkedIn More