Ajout automatique de disfluences pour la synthèse de la parole spontanée : formalisation et preuve de concept - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2017

Automatic disfluency insertion towards spontaneous TTS : formalization and proof of concept

Ajout automatique de disfluences pour la synthèse de la parole spontanée : formalisation et preuve de concept

Résumé

This paper presents an exploratory work on the automatic insertion of disfluencies in text-to-speech systems. By inserting pauses, repetitions and revisions, the objective is to make synthetic speech more spontaneous and expressive. To achieve this task, we formalize the problem as a theoretical process, where transformation functions are iteratively composed. This is a novel contribution since most of the previous work either focus on the detection or cleaning of disfluencies in speech transcripts, or solely concentrate on pause insertion in text-to-speech. We present a first implementation of the proposed process using conditional random fields and language models, before conducting objective and perceptual evaluations. These experiments lead to the conclusion that our proposition is effective to generate disfluencies, and highlights perpectives for future improvements.
Cet article présente un travail exploratoire sur l'ajout automatique de disfluences, c'est-à-dire de pauses, de répétitions et de révisions, dans les énoncés en entrée d'un système de synthèse de la parole. L'objectif est de conférer aux signaux ainsi synthétisés un caractère plus spontané et expressif. Pour cela, nous présentons une formalisation novatrice du processus de production de disfluences à travers un mécanisme de composition de ces disfluences. Cette formalisation se distingue notamment des approches visant la détection ou le nettoyage de disfluences dans des transcriptions, ou de celles en synthèse de la parole qui ne s'intéressent qu'au seul ajout de pauses. Nous présentons une première implémentation de notre processus fondée sur des champs aléatoires conditionnels et des modèles de langage, puis conduisons des évaluations objectives et perceptives. Celles-ci nous permettent de conclure à la fonctionnalité de notre proposition et d'en discuter les pistes principales d'amélioration.
Fichier principal
Vignette du fichier
disfluency-generation.pdf (290.11 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01532031 , version 1 (02-06-2017)
hal-01532031 , version 2 (05-07-2017)

Identifiants

  • HAL Id : hal-01532031 , version 2

Citer

Raheel Qader, Gwénolé Lecorvé, Damien Lolive, Pascale Sébillot. Ajout automatique de disfluences pour la synthèse de la parole spontanée : formalisation et preuve de concept. Traitement automatique du langage naturel (TALN), Jun 2017, Orléans, France. ⟨hal-01532031v2⟩
364 Consultations
283 Téléchargements

Partager

Gmail Facebook X LinkedIn More