Make text look like speech: disfluency generation using sequence-to-sequence neural networks

Henri Lasselin; Gwénolé Lecorvé

Rapport (Rapport De Recherche) Année : 2018

Make text look like speech: disfluency generation using sequence-to-sequence neural networks

(1) , (1)

Henri Lasselin

Fonction : Auteur
PersonId : 1029616

Expressiveness in Human Centered Data/Media

Gwénolé Lecorvé

Fonction : Auteur
PersonId : 20677
IdHAL : gwenole-lecorve
ORCID : 0000-0002-4271-2087
IdRef : 150245254

Expressiveness in Human Centered Data/Media

Résumé

The synthesis of spontaneous natural speech is a challenge. One way to approach it is to introduce disfluencies since the latter are very present in spontaneous speech. Recently, work has proposed a method to generate disfluencies using language models and conditional random fields. However, neural networks can deal with many problems in natural language processing and it may be wise to use them to produce disfluencies. In this document, we draw up the state of the art of disfluencies as well as of sequence-to-sequence models in order to realize this work during an M.Sc. internship and to follow the most appropriate tracks.

La synthèse de discours spontanés naturels est un défi à relever. Une manière de s'en approcher est de produire des discours disfluents. En effet, les disfluences sont très présentes en parole spontanée. Récemment, des travaux ont proposé une méthode permettant de générer des disfluences à l'aide de modèles de langage et de champs aléatoires conditionnels. Toutefois, les réseaux de neurones permettent de traiter de nombreux problèmes en traitement automatique des langues et il peut être judicieux de les utiliser pour produire des disfluences. Dans ce document, nous dressons l'état de l'art des disfluences ainsi que des modèles séquence-à-séquence afin de réaliser ce travail lors d'un stage de master et de suivre les pistes les plus appropriées.

Domaines

Intelligence artificielle [cs.AI] Réseau de neurones [cs.NE] Traitement du texte et du document

Fichier principal

Make_text_look_like_speech_Vfinale.pdf (1.06 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Gwénolé Lecorvé : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01738344

Soumis le : mardi 20 mars 2018-14:31:06

Dernière modification le : vendredi 24 mars 2023-14:53:06

Archivage à long terme le : mardi 11 septembre 2018-09:23:01

Dates et versions

hal-01738344 , version 1 (20-03-2018)

Identifiants

HAL Id : hal-01738344 , version 1

Citer

Henri Lasselin, Gwénolé Lecorvé. Make text look like speech: disfluency generation using sequence-to-sequence neural networks. [Rapport de recherche] Univ Rennes, CNRS, IRISA, France; IRISA, équipe EXPRESSION. 2018. ⟨hal-01738344⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA CENTRALESUPELEC IRISA-D6 LARA UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM

177 Consultations

199 Téléchargements

Make text look like speech: disfluency generation using sequence-to-sequence neural networks

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager