Bayesian estimation employing a phase-sensitive observation model for noise and reverberation robust automatic speech recognition / Dipl-Ing. Volker Sebastian Leutnant ; Erster Gutachter: Prof. Dr.-Ing. Reinhold Häb-Umbach, zweiter Gutachter: Prof. Bhiksha Raj

Leutnant, Volker

Titelaufnahme

Titel
Bayesian estimation employing a phase-sensitive observation model for noise and reverberation robust automatic speech recognition / Dipl-Ing. Volker Sebastian Leutnant ; Erster Gutachter: Prof. Dr.-Ing. Reinhold Häb-Umbach, zweiter Gutachter: Prof. Bhiksha Raj
Autor
Leutnant, Volker
Beteiligte
Häb-Umbach, Reinhold ; Raj, Bhiksha
Körperschaft
Universität Paderborn
Erschienen
Paderborn, 2016
Ausgabe
Elektronische Ressource
Umfang
1 Online-Ressource (iv, 258 Seiten) : Illustrationen
Hochschulschrift
Fakultät für Elektrotechnik, Informatik und Mathematik der Universität Paderborn, Univ., Dissertation, 2015
Anmerkung
Tag der Verteidigung: 19.05.2015
Verteidigung
2015-05-19
Sprache
Englisch
Dokumenttyp
Dissertation
URN
urn:nbn:de:hbz:466:2-24155

Links

Social Media

Share
Nachweis
Universitätsbibliothek Paderborn
IIIF
IIIF-Manifest

Dateien

Bayesian estimation employing a phase-sensitive observation model for noise and reverberation robust automatic speech recognition [Pdf 7.57 mb]
RIS

Klassifikation

Besondere Sammlungen → Veröffentlichungen der Universität → Fakultät für Elektrotechnik, Informatik und Mathematik
Klassifikation (DDC) → Informatik, Informationswissenschaft, allgemeine Werke → Informatik, Wissen, Systeme → Informatik, Informationswissenschaft, allgemeine Werke
Klassifikation (DDC) → Naturwissenschaften und Mathematik → Naturwissenschaften → Naturwissenschaften und Mathematik

Zusammenfassung

Mit der zunehmenden Nutzung und Verbreitung von automatischen Spracherkennungssystemen steigen auch die Anforderungen an eben diese Systeme im Hinblick auf Robustheit gegenüber Nachhall und Hintergrundstörungen. Im besonderen Maße gilt dies für Freisprechsysteme. Zwar erhöhen diese den Bedienungskomfort für die Nutzer, sorgen aber auch dafür, dass das Sprachsignal auf verschiedene Arten gestört werden kann. Da das Training des akustischen Modells eines automatischen Spracherkennungssystems oftmals mit ungestörten Sprachsignalen durchgeführt wird, sorgen Nachhall und Hintergrundstörungen dafür, dass es während der Erkennung zu einer statistischen Diskrepanz zwischen den gespeicherten Modellen und den beobachteten Merkmalsvektoren kommt. Als Konsequenz dieser Fehlanpassung lassen sich steigende Wortfehlerraten des Erkenners beobachten. Aber auch wenn bereits auf Merkmalsvektoren von verrauschten und verhallten Sprachsignalen trainiert wurde, kommt es zu Verschlechterungen der Erkennungsergebnisse. Diese lassen sich auf die Verletzung der so genannten ”conditional-independence” Annahme, auf welche die ”Hidden Markov Modell”-basierte Spracherkennung fußt, durch die, durch den Nachhall bedingten, verstärkten zeitlichen Korrelationen der Merkmalsvektoren zurückführen. Um diese Probleme adressieren zu können, wird in dieser Arbeit eine detaillierte (statistische) Analyse der Auswirkung von Nachhall und Hintergrundstörungen auf das Sprachsignal und schlussendlich auf die Merkmalsvektoren, welche für die Erkennung verwendet werden, durchgeführt. Daraus wird dann ein neuartiges Beobachtungsmodell, welches die Merkmale des verrauschten und verhallten Sprachsignals mit denen des ungestörten Sprachsignals und denen der Hintergrundstörung in Beziehung setzt, entwickelt ...

Abstract

Speech recognition technology has been emerging into everyday life. The acceptance of speech recognition systems is, however, still suffering from their lack of robustness w.r.t. acoustic environmental noise and reverberation. This problem is probably most severe when hands-free systems are employed to capture human speech. While allowing the user to move freely without the need of wearing a headset or holding a microphone, performance of hands- free systems is particularly highly sensitive to the acoustic conditions of the environment they are employed in. The reason for this may be found in the increased distance of the speaker to the microphone compared to the use of a headset, which leads to a degradation of the acoustic signal. Since the training of a speech recognizers acoustic model is often carried out with clean speech signals, the signal modification by reverberation and noise results in a mismatch between the statistics of the observed feature vectors at training and testing stage, and thus in an increased word error rate. But even in the case of matched noisy reverberant training the performance deteriorates, since the temporal feature correlations introduced by reverberation violate the conditional independence assumption inherent to hidden Markov model based speech recognition. In this thesis a detailed (statistical) analysis of how reverberation and noise affect the speech signal and eventually the feature vectors passed to the recognizer is carried out to address those issues. The findings lead to the derivation of a novel statistical observation model which relates the features of the noisy reverberant speech signal to those of the underlying clean speech signal and the noise. It is eventually employed in the context of model-based Bayesian feature enhancement with subsequent speech recognition. The derived observation model thereby generalizes both the observation model for noisy speech ...

Inhalt

Inhalt des Werkes

Statistik

Das PDF-Dokument wurde 73 mal heruntergeladen.

Lizenz-/Rechtehinweis

Urheberrechtsschutz

Publizieren

Besondere Sammlungen

Digitalisierungsservice

Hilfe

Impressum

Datenschutz

Titelaufnahme