Make text look like speech: disfluency generation using sequence-to-sequence neural networks - Archive ouverte HAL Access content directly
Reports (Research Report) Year : 2018

Make text look like speech: disfluency generation using sequence-to-sequence neural networks

(1) , (1)
1
Henri Lasselin
  • Function : Author
  • PersonId : 1029616

Abstract

The synthesis of spontaneous natural speech is a challenge. One way to approach it is to introduce disfluencies since the latter are very present in spontaneous speech. Recently, work has proposed a method to generate disfluencies using language models and conditional random fields. However, neural networks can deal with many problems in natural language processing and it may be wise to use them to produce disfluencies. In this document, we draw up the state of the art of disfluencies as well as of sequence-to-sequence models in order to realize this work during an M.Sc. internship and to follow the most appropriate tracks.
La synthèse de discours spontanés naturels est un défi à relever. Une manière de s'en approcher est de produire des discours disfluents. En effet, les disfluences sont très présentes en parole spontanée. Récemment, des travaux ont proposé une méthode permettant de générer des disfluences à l'aide de modèles de langage et de champs aléatoires conditionnels. Toutefois, les réseaux de neurones permettent de traiter de nombreux problèmes en traitement automatique des langues et il peut être judicieux de les utiliser pour produire des disfluences. Dans ce document, nous dressons l'état de l'art des disfluences ainsi que des modèles séquence-à-séquence afin de réaliser ce travail lors d'un stage de master et de suivre les pistes les plus appropriées.
Fichier principal
Vignette du fichier
Make_text_look_like_speech_Vfinale.pdf (1.06 Mo) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

hal-01738344 , version 1 (20-03-2018)

Identifiers

  • HAL Id : hal-01738344 , version 1

Cite

Henri Lasselin, Gwénolé Lecorvé. Make text look like speech: disfluency generation using sequence-to-sequence neural networks. [Rapport de recherche] Univ Rennes, CNRS, IRISA, France; IRISA, équipe EXPRESSION. 2018. ⟨hal-01738344⟩
170 View
165 Download

Share

Gmail Facebook Twitter LinkedIn More