Go to page

Bibliographic Metadata

Links

Deutsch

Die Benutzung des Mobiltelefons, die sich in den letzten Jahrzehnten rasant verbreitet hat, bietet ein bedeutendes Entwicklungspotenzial für sprachbasierte Dienste an. Dafür ist die Remote-Spracherkennung eine geeignete Technologie, wobei für die Erfüllung der Erkennungsaufgabe, statt des mobilen Gerätes ein entfernter Server eingesetzt wird. Trotz der Vorteile einer Client/Server-Architektur, ist die Verschlechterung der Erkennungsgenauigkeit aufgrund Übertragungsfehler eine inhärente Schwachstelle dieses Verfahrens.

Die Robustheit der Remote-Spracherkennung gegen Übertragungsfehler wurde durch viele Forschungsarbeiten angesprochen. Eine sehr verbreitete Fehlerbehandlungstechnik basiert auf der Ersetzung des fehlerbehafteten empfangenen Merkmalsvektor durch einen Schätzwert des fehlerfreien Vektors. Der Schätzwert wird anschließend für die Klassifikation verwendet. Die durch dieses Verfahren ermöglichte Qualitätsverbesserung ist jedoch begrenzt, denn der geschätzte Merkmalsvektor stimmt nicht genau mit dem gesendeten Merkmalsvektor überein, d.h., der Schätzwert ist unsicher.

Diese Arbeit konzentriert sich auf die Änderungen in dem Rahmenwerk der Spracherkennung, die notwendig sind, um die Unsicherheitsinformation auszuwerten. Die neue Darlegung des Klassifikationsproblems ergibt eine neuartige Decodierregel, die anstatt einen Schätzwert anzuwenden, die Posterior-Verteilungsdichtefunktion des gesendeten Merkmalsvektors ausnutzt. Die Annahme, die häufig in der Hidden-Markov-Modellen basierten Spracherkennung gemacht wird, dass die einzelne Beobachtungen unabhängig voneinander sind, wird hier erleichtert. Somit hängt die Verteilungsdichtefunktion nicht nur von einer Beobachtung ab, sondern von der gesamten beobachteten Merkmalsvektorfolge. Dadurch wird die Aussagefähigkeit der Posterior-Verteilungsdichtefunktion erhöht.

Die neuartige Decodierregel ermöglicht die Realisierung eines gegen Übertragungsfehler robusten Remote-Spracherkennungssystems. Es wird aufgezeigt, wie die oben erwähnte Verteilungsdichtefunktion für Kommunikationsnetzwerke, die Bitfehlern oder Packetverluste aufweisen, ausgerechnet werden kann. Das zur Ausrechnung zugrunde gelegte wahrscheinlichkeitstheoretische Modell fasst sowohl A-priori Kenntnisse über den Merkmalsvektor als auch die Bitzuverlässigkeitsinformation über die empfangenen Daten zusammen.

Die Verbesserung der Robustheit unter verschiedenen widrigen Übertragungsumständen wird für Erkennungsaufgaben mit kleiner und mittlerer Vokabulargröße experimentell beurteilt. Die Ergebnisse für die beiden Modellen der Remote-Spracherkennung: verteilte und Netzwerk-basierte Spracherkennung sind dargestellt. Die Letztere setzte für Voice-over-IP verbreitete Sprachcodierungsverfahren ein.

English

The fast-paced growth in cell phone usage experienced over the past few decades offers a huge potential market for speech enabled mobile services. A suitable technology is Remote Speech Recognition where the actual recognition task is carried out on a remote server in the network rather than on the mobile terminal. Despite the advantages of this client-server architecture, an inherent weakness is that the communication medium may introduce errors which impair recognition accuracy.

There are numerous research studies which have been concerned with methods aimed at the creation of remote speech recognition systems which are robust to transmission errors. A widely used error concealment technique is to replace the erroneously received speech feature by an estimate of the "true" transmitted one and the carrying out of recognition using the resulting point estimate. The improvement in recognition accuracy afforded by this technique has been limited, as the estimate does not perfectly match the transmitted value, i.e. is uncertain.

This thesis focuses on modification of the speech recognition framework to compensate for uncertain features. By reformulation of the classification problem we obtain a novel uncertainty decoding rule which, instead of a point estimate, employs the posterior probability density function of the clean feature. The conditional independence assumption, prevalent in Hidden Markov Model based ASR, is relaxed to obtain a feature posterior density that is conditioned on the complete feature vector sequence observed at the output of the communication channel. This is a more informative posterior than the one conditioned only on the current observation.

This novel decoding method is used to facilitate a transmission-error robust remote speech recognition system. It is shown how the clean feature posterior can be computed for communication links exhibiting either bit errors or packet loss. The probabilistic model which has been employed combines a priori knowledge about the clean features and bit reliability of the received data.

The proposed techniques are evaluated in experiments measuring recognition accuracy of small- and medium-vocabulary recognition tasks under various channel conditions. Recognition results are presented for two types of remote recognition: Distributed and Network Speech Recognition. In the latter case common Voice-over-IP codecs are employed.

Stats