Skip to Main content Skip to Navigation
Theses

Pronunciation and disfluency modeling for expressive speech synthesis

Résumé : Dans la première partie de cette thèse, nous présentons une nouvelle méthode de production de variantes de prononciations qui adapte des prononciations standards, c'est-à-dire issues d'un dictionnaire, à un style spontané. Cette méthode utilise une vaste gamme d'informations linguistiques, articulatoires et acoustiques, ainsi qu'un cadre probabiliste d'apprentissage automatique, à savoir les champs aléatoires conditionnels (CAC) et les modèles de langage. Nos expériences poussées sur le corpus Buckeye démontrent l'efficacité de l'approche à travers des évaluations objectives et perceptives. Des tests d'écoutes sur de la parole synthétisée montrent que les prononciations adaptées sont jugées plus spontanées que les prononciations standards, et même que celle réalisées par les locuteurs du corpus étudié. Par ailleurs, nous montrons que notre méthode peut être étendue à d'autres tâches d'adaptation, par exemple pour résoudre des problèmes d'incohérences entre les différentes séquences de phonèmes manipulées par un système de synthèse. La seconde partie de la thèse explore une nouvelle approche de production automatique de disfluences dans les énoncés en entrée d'un système de synthèse de la parole. L'approche proposée offre l'avantage de considérer plusieurs types de disfluences, à savoir des pauses, des répétitions et des révisions. Pour cela, nous présentons une formalisation novatrice du processus de production de disfluences à travers un mécanisme de composition de ces disfluences. Nous présentons une première implémentation de notre processus, elle aussi fondée sur des CAC et des modèles de langage, puis conduisons des évaluations objectives et perceptives. Celles-ci nous permettent de conclure à la bonne fonctionnalité de notre proposition et d'en discuter les pistes principales d'amélioration.
Complete list of metadatas

Cited literature [146 references]  Display  Hide  Download

https://hal.inria.fr/tel-01668014
Contributor : Abes Star :  Contact
Submitted on : Thursday, February 15, 2018 - 10:16:06 AM
Last modification on : Wednesday, June 24, 2020 - 4:19:45 PM

File

QADER_Raheel.pdf
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-01668014, version 2

Citation

Raheel Qader. Pronunciation and disfluency modeling for expressive speech synthesis. Artificial Intelligence [cs.AI]. Université Rennes 1, 2017. English. ⟨NNT : 2017REN1S076⟩. ⟨tel-01668014v2⟩

Share

Metrics

Record views

457

Files downloads

605