Reconnaissance de la parole pour l’aide à la communication pour les sourds et malentendants

Luiza Orosanu 1
1 MULTISPEECH - Speech Modeling for Facilitating Oral-Based Communication
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : Cette thèse fait partie du projet RAPSODIE dont l’objectif est de proposer une reconnaissance vocale spécialisée sur les besoins des personnes sourdes et malentendantes. Deux axes sont étudiées : la modélisation lexicale et l’extraction d’informations para-lexicales. En ce qui concerne la modélisation lexicale, nous nous sommes intéressés au choix des unités lexicales définissant le lexique et le modèle de langage associé. Nous avons évalué différentes unités lexicales, comme les phonèmes et les mots, et proposé l’utilisation des syllabes. Nous avons également proposé une nouvelle approche reposant sur la combinaison de mots et de syllabes dans un seul modèle de langage, dit hybride. L’utilisation d’un tel modèle vise à assurer une reconnaissance correcte des mots les plus fréquents et à proposer des suites de syllabes pour les segments de parole correspondant à des mots hors vocabulaire. Afin d’assurer une bonne reconnaissance des mots spécifiques à un certain domaine, nous avons approfondi l’ajout de nouveaux mots dans le modèle de langage. Nous avons proposé et évalué une nouvelle approche qui repose sur un principe de similarité entre mots ; deux mots sont considérés comme similaires s’ils ont des distributions similaires de voisins. L’approche implique plusieurs étapes : utiliser quelques phrases exemples pour le nouveau mot, chercher dans le modèle de langage des mots similaires au nouveau mot, puis définir les n-grammes associés à ce nouveau mot à partir des n-grammes des mots similaires. Concernant l’extraction d’informations para-lexicales, nous nous sommes intéressés principalement à la détection des questions et des affirmations, afin de signaler aux personnes sourdes ou malentendantes quand une question leur est adressée. Dans notre étude, plusieurs approches ont été analysées reposant sur l’utilisation des paramètres prosodiques (extraits du signal audio), des paramètres linguistiques (extraits des séquences de mots et de classes grammaticales) ou des deux types d’information. L’extraction des informations est faite à partir des signaux audio et des transcriptions automatiques ou des transcriptions manuelles, ce qui permet de comparer les performances des classifieurs dans ces deux conditions (avec ou sans erreurs sur les mots).
Type de document :
Thèse
Traitement du signal et de l'image. Université de Lorraine, 2015. Français. 〈NNT : 2015LORR0172〉
Liste complète des métadonnées

Littérature citée [145 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01251128
Contributeur : Luiza Orosanu <>
Soumis le : mardi 5 janvier 2016 - 16:30:11
Dernière modification le : jeudi 11 janvier 2018 - 06:27:31
Document(s) archivé(s) le : jeudi 7 avril 2016 - 15:38:25

Identifiants

  • HAL Id : tel-01251128, version 1

Citation

Luiza Orosanu. Reconnaissance de la parole pour l’aide à la communication pour les sourds et malentendants. Traitement du signal et de l'image. Université de Lorraine, 2015. Français. 〈NNT : 2015LORR0172〉. 〈tel-01251128〉

Partager

Métriques

Consultations de la notice

238

Téléchargements de fichiers

929