Pronunciation and disfluency modeling for expressive speech synthesis

Raheel Qader 1, 2
1 EXPRESSION - Expressiveness in Human Centered Data/Media
UBS - Université de Bretagne Sud, IRISA-D6 - MEDIA ET INTERACTIONS
Résumé : L'émergence des nouvelles technologies a conduit à de nouveaux usages de parole synthétique dans différents domaines et types d'applications où la parole joue un rôle important. En conséquence, le besoin de systèmes de synthèse de la parole plus naturelle et plus expressive a augmenté. Dans cette thèse, nous traitons du problème de l'expressivité dans le cadre de la synthèse de la parole en intégrant une production automatique de variantes de prononciations et de disfluences verbales. Ces deux phénomènes ont montré un impact important sur l'expressivité dans la parole. Dans la première partie de cette thèse, nous présentons une nouvelle méthode de production de variantes de prononciations qui adapte les prononciations standards, c'est-à-dire issues d'un dictionnaire, à un style spontané. La force et l'originalité de cette méthode tient dans l'exploitation d'une vaste gamme d'informations linguistiques, articulatoires et acoustiques, ainsi que dans l'utilisation d'un cadre probabiliste d'apprentissage automatique, à savoir les champs aléatoires conditionnels (CAC) et les modèles de langage. La méthode est tout d'abord testé dans un contexte de parole spontanée, puis nous montrons qu'elle peut être étendue à d'autres tâches d'adaptation, par exemple pour résoudre des problèmes d'incohérences entre les annotations phonétiques d'un corpus de parole et les prédictions d'un phonétiseur. Des expériences poussées sur le corpus Buckeye démontre l'efficacité de notre approche à travers des évaluations objectives et perceptives. Des tests d'écoutes sur de la parole synthétisée montrent que les prononciations adaptées sont jugées plus spontanées que les prononciations standards, et même que celle réalisées par les locuteurs du corpus étudié. De même, les expériences prouvent la capacité de la méthode à réduire ces incohérences. La seconde partie de la thèse explore une nouvelle approche de production automatique de disfluences dans les énoncés en entrée d'un système de synthèse de la parole. Les disfluences sont l'un des phénomènes les plus omniprésents dans la parole spontanée. Ainsi, produire automatiquement des disfluences est crucial pour obtenir une parole synthétique plus expressive. L'approche proposée offre l'avantage d'être capable de produire plusieurs types de disfluences, à savoir des pauses, des répétitions et des révisions. Pour cela, nous présentons une formalisation novatrice du processus de production de disfluences à travers un mécanisme de composition de ces disfluences. Nous présentons une première implémentation de notre processus, elle aussi fondée sur des CAC et des modèles de langage, puis conduisons des évaluations objectives et perceptives. Celles-ci nous permettent de conclure à la fonctionnalité de notre proposition et d'en discuter les pistes principales d'amélioration.
Liste complète des métadonnées

Littérature citée [203 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01668014
Contributeur : Raheel Qader <>
Soumis le : mardi 19 décembre 2017 - 17:12:00
Dernière modification le : mardi 16 janvier 2018 - 15:54:23

Fichier

these_Raheel_QADER.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01668014, version 1

Citation

Raheel Qader. Pronunciation and disfluency modeling for expressive speech synthesis. Artificial Intelligence [cs.AI]. Université de Rennes 1, 2017. English. 〈tel-01668014〉

Partager

Métriques

Consultations de la notice

103

Téléchargements de fichiers

9