Zur Seitenansicht
 

Titelaufnahme

Titel
Ausnutzung zeitlicher Redundanzen der cepstralen Sprachmerkmale für die automatische Spracherkennung / Stefan Windmann
AutorWindmann, Stefan In der Gemeinsamen Normdatei der DNB nachschlagen
Erschienen2009
HochschulschriftPaderborn, Univ., Diss., 2009
SpracheDeutsch
DokumenttypDissertation
URNurn:nbn:de:hbz:466-20090512013 Persistent Identifier (URN)
Dateien
Ausnutzung zeitlicher Redundanzen der cepstralen Sprachmerkmale für die automatische Spracherkennung [1.21 mb]
abstract [14.78 kb]
abstract [12.83 kb]
Links
Nachweis
Klassifikation

Deutsch

In der automatischen Spracherkennung hat sich seit Mitte der 80er Jahre ein statistischer Modellierungsansatz auf der Basis von Markovmodellen (HMMs) als Standard etabliert. Ein wesentlicher Schwachpunkt dieses Ansatzes besteht in der fehlenden Ausnutzung statistischer Abhängigkeiten zwischen den Merkmalsvektoren aufeinander folgender Sprachrahmen. Dies betrifft sowohl die akustische Modellierung mit HMMs im Back-End des Erkenners als auch eine vorangehende modellbasierte Merkmalsentstörung auf der Basis von Gaußmischungsmodellen (GMMs). An dieser Stelle setzt die vorliegende Arbeit an, deren Ziel die Berücksichtigung statistischer Abhängigkeiten zwischen den Sprachmerkmalen verschiedener Sprachrahmen innerhalb des statistischen Spracherkennungsansatzes ist. Bei der Merkmalsentstörung können Inter-Frame Korrelationen ausgenutzt werden, indem die Dynamik der cepstralen Sprachmerkmale mit schaltenden, linearen Dynamikmodellen (SLDMs) beschrieben wird. Es werden verschiedene Möglichkeiten untersucht, um die a posteriori Wahrscheinlichkeit der Sprachmerkmale mit schaltenden Modellen zu berechnen. Zur Modellierung des Rauschens wird ein neues Zustandsmodell eingeführt, für das Expectation-Maximization-(EM-) Algorithmen zur Parameterschätzung hergeleitet werden. Im Back-End werden die statistischen Abhängigkeiten zwischen den Sprachmerkmalen auf der Ebene der Mischungskomponenten des HMMs approximiert. Für das resultierende segmentielle HMM wird eine effiziente Suchstrategie entwickelt. Ein weiterer Schwerpunkt der Untersuchungen ist der Austausch von Informationen zwischen der Stufe der Merkmalsentstörung und der Erkennung. Die Unsicherheit der extrahierten Sprachmerkmale kann bei der Erkennung durch ein sogenanntes Uncertainty Decoding berücksichtigt werden. Daneben ist es möglich, die Informationen aus dem Erkenner in einem mehrstufigen Erkennungsansatz bei der Merkmalsentstörung der jeweils nächsten Erkennungsstufe auszunutzen, wozu die Verteilung der Sprachmerkmale mit Informationen über die HMM-Zustände beeinflußt werden kann. In diesem Ansatz können zur Berücksichtigung der Unsicherheit der Erkennungsergebnisse anstelle einer einzelnen Zustandsfolge, die bei der Standarderkennung berechnet wird, die a posteriori Wahrscheinlichkeiten der HMM-Zustände ermittelt werden. Zu diesem Zweck wird eine wortgraphbasierte Erkennerstruktur entwickelt, in der zunächst für jeden Sprachrahmen die wahrscheinlichsten Wörter mit einem Vorwärts-Rückwärts-Algorithmus auf Wortebene bestimmt werden. Die a posterioriWahrscheinlichkeiten der HMM-Zustände können auf einem eingeschränkten Wortgraphen mit einem Vorwärts-Rückwärts-Algorithmus auf Zustandsebene berechnet werden.

English

Stochastic models on the the basis of the Hidden Markov Model (HMM) are established as a standard in automatic speech recognition (ASR). However, an essential drawback of the HMM consists in the so-called conditional independence assumption, i.e. in not directly modelling the statistical dependencies between speech features which are extracted from subsequent frames of the speech signal. This drawback is also related to a preceding model-based speech feature enhancement based on the Gaussian Mixture Model (GMM). The objective of the following work is the integration of the statistical dependencies between subsequent speech features into the statistical speech recognition approach. It is possible to consider inter-frame correlations for speech feature enhancement by modelling the dynamics of the cepstral speech features with a Switching Linear Dynamic Model (SLDM). In this work different possibilities for posterior estimation with SLDMs are investigated. Further a new state space model for the cepstral noise process is introduced. Expectation-Maximization (EM) algorithms are derived for the parameter estimation in this framework. The statistical dependencies between the speech features in the acoustic back-end model are approximated on the level of the HMM mixture weights. An efficient search strategy is developed for the resulting segmental HMM. Further the exchange of information between the speech feature enhancement stage and the speech recognition stage is investigated. A so-called uncertainty decoding is applied for speech recognition in order to exploit the uncertainty of the extracted speech features. Besides, a multi-stage recognition is carried out to consider information from a prior recognition stage for speech feature enhancement. Therefore the speech distribution is influenced with information about the HMM states. It is possible to account for the uncertainty of the recognition results by calculating the posterior of the HMM states instead of the single-best HMM sequence. For this purpose, a wordgraph-based recognizer is developed where the most probable words are determined for each speech frame with a forward-backward algorithm on word level. The posteriors of the HMM states are estimated on the constricted wordgraph with a forward-backward algorithm on state level.