Bei der Verwendung von Freisprechsystemen zur automatischen Spracherkennung tritt das Problem auf, dass neben dem gewünschten Sprachsignal sowohl dessen Nachhall als auch unerwünschte Hintergrundstörungen durch das Mikrofon aufgenommen werden. Dieses bewirkt eine Veränderung der für die Dekodierung relevanten akustischen Merkmale, welche aus dem Mikrofonsignal extrahiert werden. Da für das Training des Spracherkenners gewöhnlich ungestörte Sprachsignale herangezogen werden, führt die Diskrepanz zwischen den Trainings- und Einsatzbedingungen zu einer erhöhten Wortfehlerrate. In dieser Arbeit wird ein neuartiges, auf der Anwendung von Bayes'scher Inferenz basierendes Verfahren zur Verbesserung akustischer Merkmale zur robusten automatischen Spracherkennung in Gegenwart von Nachhall sowie Hintergrundstörungen entwickelt. Das Verfahren nutzt einerseits a priori-Modelle zur Beschreibung der Trajektorien der akustischen Merkmale jeweils des sauberen Sprachsignals sowie des Hintergrundstörsignals, wobei im ersteren Fall schaltende, lineare dynamische Modelle zur Ausnutzung von Korrelationen zwischen zeitlich aufeinander folgenden Merkmalen eingesetzt werden. Die Arbeit konzentriert sich dabei auf das Training der Modelle sowie die Initialisierung deren Parameter. Andererseits wird für die Merkmalsverbesserung ein Beobachtungsmodell verwendet, welches die Merkmale des verhallten und gestörten Sprachsignals mit denen des sauberen in Beziehung setzt. Diese Beziehung hängt von der Raumimpulsantwort zwischen dem Sprecher und dem Mikrofon ab. Da deren blinde Schätzung, die in einer unbekannten Umgebung erforderlich ist, hoch sensibel ist, wird die Raumimpulsantwort durch ein statistisches Modell beschrieben. Dieses besitzt nur zwei Parameter, welche einfacher und robuster als die vollständige Raumimpulsantwort geschätzt werden können.
Bibliographic Metadata
- TitleModellbasierte Merkmalsverbesserung zur robusten automatischen Spracherkennung in Gegenwart von Nachhall und Hintergrundstörungen
- Author
- Examiner
- Published
- Institutional NotePaderborn, Univ., Diss., 2011
- AnnotationTag der Verteidigung: 16.12.2011
- LanguageGerman ; English
- Document TypesDissertation (PhD)
- URN
- Social MediaShare
- Reference
- IIIF
Using hands-free systems for automatic speech recognition may contribute to increased convenience and safety in many application areas. In this case, however, the problem occurs that, in addition to the desired speech signal, also reverberation and undesired background noise are captured by the microphone. These influences cause a degradation of the acoustic features, which are extracted from the microphone signal for the subsequent decoding. Since for the training of the recognizer usually clean speech signals are employed, the discrepancy between the training and testing conditions leads to an increased word error rate. In this thesis a new technique for the enhancement of acoustic features for robust speech recognition in the presence of reverberation and noise is developed, which is based on the application of Bayesian inference and whose main focus is on the compensation of the effects of reverberation. On the one hand, the technique involves a priori models to describe the time trajectory of the acoustic features belonging to the clean speech signal and background noise signal. In the former case switching linear dynamic models are employed to exploit correlations between successive features. This thesis concentrates on the training of the models as well as the initialization of the model parameters. On the other hand, the feature enhancement technique uses an observation model, which relates the features of the reverberant and noisy speech signal to those of the clean speech signal. This relation depends on the room impulse response between the speaker and the microphone. As its blind estimation, which is required in an unknown environment, is extremely sensitive, the room impulse response is modeled statistically. The statistic model has only two parameters, which may be estimated from the captured microphone signal easier and more robust than the complete room impulse response.
- The PDF-Document has been downloaded 54 times.