Online learning for audio clustering and segmentation

Alberto Bietti

Mémoires D'étudiants -- Hal-Inria+ Année : 2014

Online learning for audio clustering and segmentation

(1, 2)

1
2

Alberto Bietti

Fonction : Auteur
PersonId : 959810

Synchronous Realtime Processing and Programming of Music Signals

Statistical Machine Learning and Parsimony

Résumé

Audio segmentation is an essential problem in many audio signal processing tasks which tries to segment an audio signal into homogeneous chunks, or segments. Most current approaches rely on a change-point detection phase for finding segment boundaries, followed by a similarity matching phase which identifies similar segments. In this thesis, we focus instead on joint segmentation and clustering algorithms which solve both tasks simultaneously, through the use of unsupervised learning techniques in sequential models. Hidden Markov and semi-Markov models are a natural choice for this modeling task, and we present their use in the context of audio segmentation. We then explore the use of online learning techniques in sequential models and their application to real-time audio segmentation tasks. We present an existing online EM algorithm for hidden Markov models and extend it to hidden semi-Markov models by introducing a different parameterization of semi-Markov chains. Finally, we develop new online learning algorithms for sequential models based on incremental optimization of surrogate functions.

Le problème de la segmentation audio, essentiel dans de nombreuses tâches de traitement du signal audio, cherche à décomposer un signal audio en courts segments de contenu homogène. La plupart des approches courantes en segmentation sont basées sur une phase de détection de rupture qui trouve les limites entre segments, suivie d'une phase de calcul de similarité qui identifie les segments similaires. Dans ce rapport, nous nous intéressons à une approche différente, qui cherche à effectuer les deux tâches -- segmentation et clustering -- simultanément, avec des méthodes d'apprentissage non supervisé dans des modèles séquentiels. Les modèles de Markov et de semi-Markov cachés sont des choix naturels dans ce contexte de modélisation, et nous présentons leur utilisation en segmentation audio. Nous nous intéressons ensuite à l'utilisation de méthodes d'apprentissage en ligne dans des modèles séquentiels, et leur application à la segmentation audio en temps réel. Nous présentons un modèle existant de online EM pour les modèles de Markov cachés, et l'étendons aux modèles de semi-Markov cachés grâce à une nouvelle paramétrisation des chaines de semi-Markov. Enfin, nous introduisons de nouveaux algorithmes en ligne pour les modèles séquentiels qui s'appuient sur une optimisation incrémentale de fonctions surrogées.

Domaines

Apprentissage [cs.LG] Machine Learning [stat.ML] Son [cs.SD]

Fichier principal

ms-thesis.pdf (2.94 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Alberto Bietti : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01064672

Soumis le : jeudi 9 octobre 2014-02:21:32

Dernière modification le : vendredi 19 avril 2024-16:18:57

Archivage à long terme le : samedi 10 janvier 2015-10:10:36

Dates et versions

hal-01064672 , version 1 (16-09-2014)

hal-01064672 , version 2 (09-10-2014)

Identifiants

HAL Id : hal-01064672 , version 2

Citer

Alberto Bietti. Online learning for audio clustering and segmentation. Machine Learning [cs.LG]. 2014. ⟨hal-01064672v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENS-PARIS CNRS INRIA IRCAM INRIA2 PSL

402 Consultations

3146 Téléchargements

Online learning for audio clustering and segmentation

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager