Bibliographic Metadata
Bibliographic Metadata
- TitleIntegration of neural networks and probabilistic spatial models for acoustic blind source separation : / von M. Sc. Lukas Drude ; Erster Gutachter: Prof. Dr.-Ing. Reinhold Häb-Umbach, Zweiter Gutachter: Prof. Dr.-Ing. Timo Gerkmann
- Author
- Participants
- Published
- Description1 Online-Ressource (v, 143 Seiten) : Diagramme
- Institutional NoteUniversität Paderborn, Dissertation, 2020
- AnnotationTag der Verteidigung: 18.12.2020
- Defended on2020-12-18
- LanguageGerman ; English
- Document TypesDissertation (PhD)
- URN
- DOI
Links
- Social MediaShare
- Reference
- IIIF
Files
Classification
Zusammenfassung
Trotz des Fortschritts im Bereich Quellentrennung, Sprachsignal-Verbesserung und automatischer Spracherkennung ist das Problem robuster Verarbeitung realistischer Meetings ungelöst. Die meiste Forschung im Bereich Quellentrennung konzentriert sich entweder auf spektrale Merkmale um einkanalige Aufnahmen zu trennen oder räumliche Merkmale um mehrkanalige Aufnahmen zu trennen. Die Integration von räumlichen und spektralen Merkmalen in einem gemeinsamen Konzept kann die automatische Spracherkennung signifikant verbessern und die Generalisierbarkeit verbessern, da neuronale Netze von den sehr großen Datensätzen profitieren wohingegen die probabilistischen Modelle besser auf unbekannte Situationen reagieren können. Deshalb liegt der Fokus der vorliegenden Arbeit auf der Integration von zwei verhältnismäßig unabhängigen Forschungsrichtungen, nämlich einkanaliger Quellentrennung basierend auf neuronalen Netzen und mehrkanaliger Quellentrennung basierend auf probabilistischen grafischen Modellen. Diese Arbeit stellt ein generelles Gerüst zur Integration räumlicher und spektraler Merkmale dar in dem neuronale Netze und probabilistische grafische Modelle sich ergänzen um den State-of-the-Art im Bereich blinder Quellentrennung von verhallten und verrauschten Mischungen zu definieren. The Kernergebnisse sind (1) eine kaskadierte Integration bei der ein neuronales Netz ein probabilistisches grafisches Modell initialisiert liefert bereits substantielle Verbesserungen, (2) räumliche Merkmale können zum unüberwachten Training neuronaler Netze zur Quellentrennung verwendet werden, (3) die enge Integration, bei der eine gemeinsame Lösung beider Modalitäten gefunden wird, führt zu den geringsten Wortfehlerraten und bester Generalisierbarkeit zu ungesehenen realistischen Aufnahmen.
Abstract
Despite a lot of progress in speech separation, enhancement, and automatic speech recognition realistic meeting recognition is still fairly unsolved. Most research on speech separation either focuses on spectral cues to address single-channel recordings or spatial cues to separate multi-channel recordings and exclusively either rely on neural networks or probabilistic graphical models. Integrating a spatial clustering approach and a deep learning approach using spectral cues in a single framework can significantly improve automatic speech recognition performance and improve generalizability given that a neural network profits from a vast amount of training data while the probabilistic counterpart adapts to the current scene. This thesis at hand, therefore, concentrates on the integration of two fairly disjoint research streams, namely single-channel deep learning-based source separation and multi-channel probabilistic model-based source separation. It provides a general framework to integrate spatial and spectral cues in which neural networks and probabilistic graphical models complement each other in achieving state of the art performance in blind source separation on noisy, reverberant data. The efficacy of the proposed approaches is evaluated on simulated artificial mixtures as well as real recordings of simultaneously active speakers. The key findings are (1) a cascade integration in which a neural network initializes a probabilistic graphical model provides substantial improvement, (2) spatial cues can be used for unsupervised training of neural networks, (3) tight integration, an integration in which a joint agreement between both modalities and models is found, leads to lowest word error rates and best generalizability to unseen real mixtures.
Content
Stats
- The PDF-Document has been downloaded 431 times.
License/Rightsstatement