Reconnaissance Statistique de la Parole Continue pour Voix Laryngée et Alaryngée

Othman Lachhab

Résumé

La Reconnaissance Automatique de la Parole (RAP) demeure depuis toujours un défi scientifique. Au cours de ces dernières années de grands efforts de recherche ont été concrétisés, afin de développer des systèmes d’aide et des solutions permettant d’effectuer certaine tâches jusqu’ici réservées aux humains. La parole est un mode de communication naturel, et un moyen facile pour échanger des informations entre humains. Une personne laryngectomisée, n’a pas la capacité de parler normalement puisqu’elle est dépourvue de ses cordes vocales suite à une ablation chirurgicale du larynx. Ainsi, le patient perd toute possibilité de communication avec une voix laryngée. Néanmoins, la rééducation avec un orthophoniste lui permet d’acquérir une voix de substitution dite “oesophagienne”. Contrairement à la parole laryngée (normale), cette parole oesophagienne (alaryngée) est rauque, faible en énergie et en intelligibilité ce qui la rend difficile à comprendre. L’objectif de cette thèse est la réalisation d’un système de reconnaissance automatique de la parole oesophagienne (alaryngée). Ce système devrait être en mesure de restituer, la plus grande partie des informations phonétiques contenues dans le signal de la parole oesophagienne. Cette information textuelle fournie par la partie décodage de ce système pourra être utilisée par un synthétiseur texte-parole (Text-To-Speech) dans le but de reconstruire une voix laryngée. Un tel système permettrait aux personnes laryngectomisées, une communication orale plus facile avec d’autres personnes. Notre première contribution est relative au développement d’un système de reconnaissance automatique de la parole laryngée en utilisant des modèles de Markov cachés. Les rares corpus de parole oesophagienne existants, ne sont pas dédiés à la reconnaissance, à cause d’un manque de données (souvent quelques dizaines de phrases sont enregistrées). Pour cette raison, nous avons conçu notre propre base de données dédiée à la reconnaissance de la parole oesophagienne contenant 480 phases prononcées par un locuteur laryngectomisé.Dans une seconde partie, le système de reconnaissance de la parole laryngée créé a été adapté et appliqué à cette parole oesophagienne. Notre dernière contribution au sujet de cette thèse concerne la réalisation d’un système hybride (correction = conversion + reconnaissance) fondé sur la conversion de la voix en projetant les vecteurs acoustiques de la parole oesophagienne dans un espace moins perturbé et relatif à la parole laryngée. Nous montrons que ce système hybride est capable d’améliorer la reconnaissance de cette parole alaryngée.

Automatic Speech Recognition (ASR) has always been a scientist challenge. Many research efforts have been made over recent years to offer solutions and aiding systems in order to carry out various tasks previously dedicated only to humans. Speech is considered the most natural mode of communication, and an easy way for exchanging information between humans. A laryngectomee person lacks the ability of speaking normally because he/her lost his/her vocal cords after a surgical ablation of the larynx. Thus, the patient loses the phonation ability. Only a reeducation by a speech therapist allows this person to provide a new substitution voice called “esophageal”. Unlike laryngeal speech (normal), esophageal speech (alaryngeal) is hoarse, weak in intensity and in intelligibility whichmakes it difficult to understand. The goal of this thesis is the implementation of an automatic esophageal speech (alaryngeal) recognition system. This system should be able to provide most of the phonetic information contained in the esophageal speech signal. The decoding part of this system connected to a text-to-speech synthesizer should allow the reconstruction of a laryngeal voice. Such a system should permit laryngectomees an easier oral communication with other people. Our first contribution concerns the development of an automatic laryngeal speech recognition system using hidden Markov models. The few existing corpora of esophageal speech, are not dedicated to recognition, because of a lack of data (only a few dozen sentences are registered in practice). For this reason, we designed our own database dedicated to esophageal speech recognition containing 480 sentences spoken by a laryngectomee speaker. In the second part, our devoted laryngeal speech recognition system has been adapted and applied to this esophageal speech. Our last contribution of this thesis concerns the realization of a hybrid system (correction = conversion + recognition) based on voice conversion by projecting the acoustic feature vectors of esophageal speech in a less disturbed space related to laryngeal speech. We demonstrate that this hybrid system is able to improve the recognition of alaryngeal speech.

Statistical speech recognition for laryngeal and alaryngeal voice

Reconnaissance Statistique de la Parole Continue pour Voix Laryngée et Alaryngée

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager