Modèles génératifs pour la classification et la séparation de sources sonores en temps-réel
Description:
Cette thèse s’inscrit dans le cadre de l’entreprise A-Volute, éditrice de logiciels d’amélioration d’expérience audio. Elle propose un radar qui transpose l’information sonore multi-canale en information visuelle en temps-réel. Ce radar, bien que pertinent, manque d’intelligence car il analyse uniquement le flux audio en terme d’énergie et non en termes de sources sonores distinctes. Le but de cette thèse est de développer des algorithmes de classification et de séparation de sources sonores en temps-réel. D’une part, la classification de sources sonores a pour but d’attribuer un label (par exemple voix) à un son monophonique (un label) ou polyphonique (plusieurs labels). La méthode développée utilise un attribut spécifique, le spectre de puissance normalisé, utile à la fois dans le cas monophonique et polyphonique de part sa propriété d’additivité des sources sonores. Cette méthode utilise un modèle génératif qui permet de dériver une règle de décision basée sur une estimation non paramétrique. Le passage en temps-réel est réalisé grâce à un pré-traitement des prototypes avec une classification hiérarchique ascendante. Les résultats sont encourageants sur différentes bases de données (propriétaire et de comparaison), que ce soit en terme de précision ou de temps de calcul, notamment dans le cas polyphonique. D’autre part, la séparation de sources consiste à estimer les sources en terme de signal dans un mélange. Deux approches de séparation ont été considérées dans la thèse. La première considère les signaux à retrouver comme des données manquantes et à les estimer via un schéma génératif et une modélisation probabiliste. L’autre approche consiste, à partir d’exemples sonores présent dans une base de données, à calculer des transformations optimales de plusieurs exemples dont la combinaison tends vers le mélange observé. Les deux propositions sont complémentaires, avec chacune des avantages et inconvénients (rapidité de calcul pour la première, interprétabilité du résultat pour la deuxième). Les résultats expérimentaux semblent prometteurs et nous permettent d’envisager des perspectives de recherches intéressantes pour chacune des propositions.
Date:
ven 20 sep 2019 14h00
Soutenance (lieu):
Bâtiment M2 - Salle de réunion
Directeur:
BIERNACKI Christophe
Candidat:
BAELDE Maxime
type de soutenance:
Thèse
Lien:
- Accueil
- Annuaire
- Equipes
- Evènements
- Congrès
- Invités
- Séminaires, Groupes de Travail et Colloquium
- Séminaires
- Analyse Complexe et Equations Différentielles
- Analyse Fonctionnelle
- Analyse Numérique et Equations Aux Dérivées Partielles
- Arithmétique
- Formes Automorphes
- Géométrie Algébrique
- Géométrie des espaces singuliers
- Géométrie Dynamique
- Histoire des Mathématiques
- Physique Mathématique
- Probabilités et Statistique
- Singularités et Applications
- Théorie Analytique et Analyse Harmonique
- Topologie
- Colloquium
- Groupes de Travail
- Analyse harmonique et théorie analytique
- Autour des fractales
- Calcul de Malliavin et processus fractionnaires
- Déformations des singularités de surfaces
- Equations aux dérivées partielles
- Extraction du signal
- Fondements mathématiques du deep learning
- Géométrie Non-Archimédienne
- Géométrie Stochastique
- Idéaux de Hodge
- Leçons d'Analyse
- Matrices Aléatoires
- Probabilités
- Statistique et Grande Dimension
- Systèmes Dynamiques
- Topologie
- W-algèbres
- Doctorants et Post-doctorants
- Séminaires
- Soutenances
- Anciens Séminaires et Groupes de Travail
- Formation par la Recherche
- Laboratoire
- Liens utiles
- Projets
- Recrutements
- Services