Mit der zunehmenden Nutzung und Verbreitung von automatischen Spracherkennungssystemen steigen auch die Anforderungen an eben diese Systeme im Hinblick auf Robustheit gegenüber Nachhall und Hintergrundstörungen. Im besonderen Maße gilt dies für Freisprechsysteme. Zwar erhöhen diese den Bedienungskomfort für die Nutzer, sorgen aber auch dafür, dass das Sprachsignal auf verschiedene Arten gestört werden kann. Da das Training des akustischen Modells eines automatischen Spracherkennungssystems oftmals mit ungestörten Sprachsignalen durchgeführt wird, sorgen Nachhall und Hintergrundstörungen dafür, dass es während der Erkennung zu einer statistischen Diskrepanz zwischen den gespeicherten Modellen und den beobachteten Merkmalsvektoren kommt. Als Konsequenz dieser Fehlanpassung lassen sich steigende Wortfehlerraten des Erkenners beobachten. Aber auch wenn bereits auf Merkmalsvektoren von verrauschten und verhallten Sprachsignalen trainiert wurde, kommt es zu Verschlechterungen der Erkennungsergebnisse. Diese lassen sich auf die Verletzung der so genannten ”conditional-independence” Annahme, auf welche die ”Hidden Markov Modell”-basierte Spracherkennung fußt, durch die, durch den Nachhall bedingten, verstärkten zeitlichen Korrelationen der Merkmalsvektoren zurückführen. Um diese Probleme adressieren zu können, wird in dieser Arbeit eine detaillierte (statistische) Analyse der Auswirkung von Nachhall und Hintergrundstörungen auf das Sprachsignal und schlussendlich auf die Merkmalsvektoren, welche für die Erkennung verwendet werden, durchgeführt. Daraus wird dann ein neuartiges Beobachtungsmodell, welches die Merkmale des verrauschten und verhallten Sprachsignals mit denen des ungestörten Sprachsignals und denen der Hintergrundstörung in Beziehung setzt, entwickelt ...
Bibliographic Metadata
- TitleBayesian estimation employing a phase-sensitive observation model for noise and reverberation robust automatic speech recognition / Dipl-Ing. Volker Sebastian Leutnant ; Erster Gutachter: Prof. Dr.-Ing. Reinhold Häb-Umbach, zweiter Gutachter: Prof. Bhiksha Raj
- Author
- Participants
- Corporate name
- Published
- EditionElektronische Ressource
- Description1 Online-Ressource (iv, 258 Seiten) : Illustrationen
- Institutional NoteFakultät für Elektrotechnik, Informatik und Mathematik der Universität Paderborn, Univ., Dissertation, 2015
- AnnotationTag der Verteidigung: 19.05.2015
- Defended on2015-05-19
- LanguageEnglish
- Document TypesDissertation (PhD)
- URN
- Social MediaShare
- Reference
- IIIF
Speech recognition technology has been emerging into everyday life. The acceptance of speech recognition systems is, however, still suffering from their lack of robustness w.r.t. acoustic environmental noise and reverberation. This problem is probably most severe when hands-free systems are employed to capture human speech. While allowing the user to move freely without the need of wearing a headset or holding a microphone, performance of hands- free systems is particularly highly sensitive to the acoustic conditions of the environment they are employed in. The reason for this may be found in the increased distance of the speaker to the microphone compared to the use of a headset, which leads to a degradation of the acoustic signal. Since the training of a speech recognizers acoustic model is often carried out with clean speech signals, the signal modification by reverberation and noise results in a mismatch between the statistics of the observed feature vectors at training and testing stage, and thus in an increased word error rate. But even in the case of matched noisy reverberant training the performance deteriorates, since the temporal feature correlations introduced by reverberation violate the conditional independence assumption inherent to hidden Markov model based speech recognition. In this thesis a detailed (statistical) analysis of how reverberation and noise affect the speech signal and eventually the feature vectors passed to the recognizer is carried out to address those issues. The findings lead to the derivation of a novel statistical observation model which relates the features of the noisy reverberant speech signal to those of the underlying clean speech signal and the noise. It is eventually employed in the context of model-based Bayesian feature enhancement with subsequent speech recognition. The derived observation model thereby generalizes both the observation model for noisy speech ...
- The PDF-Document has been downloaded 43 times.