Ausnutzung zeitlicher Redundanzen der cepstralen Sprachmerkmale für die automatische Spracherkennung / Stefan Windmann

Windmann, Stefan

Titelaufnahme

Titel
Ausnutzung zeitlicher Redundanzen der cepstralen Sprachmerkmale für die automatische Spracherkennung / Stefan Windmann
Autor
Windmann, Stefan
Erschienen
2009
Hochschulschrift
Paderborn, Univ., Diss., 2009
Sprache
Deutsch
Dokumenttyp
Dissertation
URN
urn:nbn:de:hbz:466-20090512013

Links

Social Media

Share
Nachweis
Universitätsbibliothek Paderborn
IIIF
IIIF-Manifest

Dateien

  Ausnutzung zeitlicher Redundanzen der cepstralen Sprachmerkmale für die automatische Spracherkennung [Pdf 1.21 mb]
  abstract [Pdf 14.78 kb]
  abstract [Pdf 12.83 kb]
RIS

Klassifikation

Besondere Sammlungen → Veröffentlichungen der Universität → Fakultät für Elektrotechnik, Informatik und Mathematik → Institut für Elektrotechnik und Informationstechnik
Klassifikation (DDC) → Technik, Medizin, angewandte Wissenschaften → Technik → Technik, Technologie
Klassifikation (DDC) → Technik, Medizin, angewandte Wissenschaften → Ingenieurwissenschaften → Ingenieurwissenschaften und zugeordnete Tätigkeiten

Zusammenfassung

Deutsch

In der automatischen Spracherkennung hat sich seit Mitte der 80er Jahre ein statistischer Modellierungsansatz auf der Basis von Markovmodellen (HMMs) als Standard etabliert. Ein wesentlicher Schwachpunkt dieses Ansatzes besteht in der fehlenden Ausnutzung statistischer Abhängigkeiten zwischen den Merkmalsvektoren aufeinander folgender Sprachrahmen. Dies betrifft sowohl die akustische Modellierung mit HMMs im Back-End des Erkenners als auch eine vorangehende modellbasierte Merkmalsentstörung auf der Basis von Gaußmischungsmodellen (GMMs). An dieser Stelle setzt die vorliegende Arbeit an, deren Ziel die Berücksichtigung statistischer Abhängigkeiten zwischen den Sprachmerkmalen verschiedener Sprachrahmen innerhalb des statistischen Spracherkennungsansatzes ist. Bei der Merkmalsentstörung können Inter-Frame Korrelationen ausgenutzt werden, indem die Dynamik der cepstralen Sprachmerkmale mit schaltenden, linearen Dynamikmodellen (SLDMs) beschrieben wird. Es werden verschiedene Möglichkeiten untersucht, um die a posteriori Wahrscheinlichkeit der Sprachmerkmale mit schaltenden Modellen zu berechnen. Zur Modellierung des Rauschens wird ein neues Zustandsmodell eingeführt, für das Expectation-Maximization-(EM-) Algorithmen zur Parameterschätzung hergeleitet werden. Im Back-End werden die statistischen Abhängigkeiten zwischen den Sprachmerkmalen auf der Ebene der Mischungskomponenten des HMMs approximiert. Für das resultierende segmentielle HMM wird eine effiziente Suchstrategie entwickelt. Ein weiterer Schwerpunkt der Untersuchungen ist der Austausch von Informationen zwischen der Stufe der Merkmalsentstörung und der Erkennung. Die Unsicherheit der extrahierten Sprachmerkmale kann bei der Erkennung durch ein sogenanntes Uncertainty Decoding berücksichtigt werden. Daneben ist es möglich, die Informationen aus dem Erkenner in einem mehrstufigen Erkennungsansatz bei der Merkmalsentstörung der jeweils nächsten Erkennungsstufe auszunutzen, wozu die Verteilung der Sprachmerkmale mit Informationen über die HMM-Zustände beeinflußt werden kann. In diesem Ansatz können zur Berücksichtigung der Unsicherheit der Erkennungsergebnisse anstelle einer einzelnen Zustandsfolge, die bei der Standarderkennung berechnet wird, die a posteriori Wahrscheinlichkeiten der HMM-Zustände ermittelt werden. Zu diesem Zweck wird eine wortgraphbasierte Erkennerstruktur entwickelt, in der zunächst für jeden Sprachrahmen die wahrscheinlichsten Wörter mit einem Vorwärts-Rückwärts-Algorithmus auf Wortebene bestimmt werden. Die a posterioriWahrscheinlichkeiten der HMM-Zustände können auf einem eingeschränkten Wortgraphen mit einem Vorwärts-Rückwärts-Algorithmus auf Zustandsebene berechnet werden.

English

Stochastic models on the the basis of the Hidden Markov Model (HMM) are established as a standard in automatic speech recognition (ASR). However, an essential drawback of the HMM consists in the so-called conditional independence assumption, i.e. in not directly modelling the statistical dependencies between speech features which are extracted from subsequent frames of the speech signal. This drawback is also related to a preceding model-based speech feature enhancement based on the Gaussian Mixture Model (GMM). The objective of the following work is the integration of the statistical dependencies between subsequent speech features into the statistical speech recognition approach. It is possible to consider inter-frame correlations for speech feature enhancement by modelling the dynamics of the cepstral speech features with a Switching Linear Dynamic Model (SLDM). In this work different possibilities for posterior estimation with SLDMs are investigated. Further a new state space model for the cepstral noise process is introduced. Expectation-Maximization (EM) algorithms are derived for the parameter estimation in this framework. The statistical dependencies between the speech features in the acoustic back-end model are approximated on the level of the HMM mixture weights. An efficient search strategy is developed for the resulting segmental HMM. Further the exchange of information between the speech feature enhancement stage and the speech recognition stage is investigated. A so-called uncertainty decoding is applied for speech recognition in order to exploit the uncertainty of the extracted speech features. Besides, a multi-stage recognition is carried out to consider information from a prior recognition stage for speech feature enhancement. Therefore the speech distribution is influenced with information about the HMM states. It is possible to account for the uncertainty of the recognition results by calculating the posterior of the HMM states instead of the single-best HMM sequence. For this purpose, a wordgraph-based recognizer is developed where the most probable words are determined for each speech frame with a forward-backward algorithm on word level. The posteriors of the HMM states are estimated on the constricted wordgraph with a forward-backward algorithm on state level.

Statistik

Das PDF-Dokument wurde 206 mal heruntergeladen.

Lizenz-/Rechtehinweis

Urheberrechtsschutz

Publizieren

Besondere Sammlungen

Digitalisierungsservice

Hilfe

Impressum

Datenschutz

Titelaufnahme

Deutsch

English