Bibliographic Metadata
Bibliographic Metadata
- TitleRobust multi-channel speech recognition with neural network supported statistical beamforming : / von M.Sc. Jahn Heymann ; Erster Gutachter: Prof. Dr.-Ing. Haeb-Umbach, Zweiter Gutachter: Priv.-Doz. Dr. rer. nat. Ralf Schlüter
- Author
- Participants
- Published
- Description1 Online-Ressource (viii, 152 Seiten) : Diagramme, Tabellen
- Institutional NoteUniversität Paderborn, Dissertation, 2020
- AnnotationTag der Verteidigung: 02.12.2020
- Defended on2020-12-02
- LanguageEnglish
- Document TypesDissertation (PhD)
- URN
- DOI
Links
- Social MediaShare
- Reference
- IIIF
Files
Classification
Zusammenfassung
Die automatische Spracherkennung ist eine wichtige Komponente für eine sprachgestützte Mensch-Maschine Kommunikation und hat wurde in den letzten Jahre signifikant verbessert.Diese Verbesserungen sind größtenteils auf die Verwendung von tiefen Neuronalen Netzwerken zurückzuführen, welche in der Lage sind, große Menge an Trainingsdaten zu nutzen und davon zu profitieren.Dennoch ist die Erkennung von Sprache aus größeren Entfernungen vor allem in lauten Umgebungen immer noch problematisch und fehlerbehaftet.In diesen Fernfeld-Szenarien können räumliche Merkmale die Erkennungsleistung steigern, indem sie die Sprache des zu erkennenden Sprechers verstärken und andere Umgebungsgeräusche dämpfen.In der Regel wird hierzu klassische Signalverarbeitung in Form des so genannten statistischen Beamformings verwendet.Dieses nutzt die zeitlichen Differenzen zwischen den einzelnen Signalen bei einer Aufnahme mit mehreren Mikrofonen, um Signale aus einer bestimmten räumlichen Richtung zu verstärken und die aus anderen Richtungen zu dämpfen.In dieser Arbeit wird die Nutzung leistungsstarker Neuronaler Netzwerke, welche bereits erfolgreich in der Spracherkennung angewendet werden, auch für die Signalverarbeitungskomponente erforscht.Anstatt jedoch nur ein Modell durch ein anderes zu ersetzen, werde diese kombiniert und statistisches Beamforming mit Neuronalen Netzen unterstützt, um das Beste aus beiden Welten zu vereinen.Wir zeigen, dass diese Kombination die Erkennungsfehler, verglichen mit der einkanaligen Baseline, auf zwei Testdatensätzen mehr als halbiert.Darauf aufbauend, erweitern wir dieses System Schritt für Schritt, indem wir die Latenz auf ein Frame reduzieren, die Abhängigkeit von parallelen simulierten Daten entfernen und die Signalverarbeitungskomponente gemeinsam mit der Spracherkennungskomponente trainieren.
Abstract
Automatic speech recognition is a crucial component for voice centric human-machine interfaces and has seen large improvements in terms of accuracy in recent years.These gains were largely driven by the switch to models based on deep neural networks which are able to exploit vast amounts of training data.But despite all improvements, recognition of far-field speech in noisy environments remains challenging.In these far-field scenarios, spatial cues can help to improve the recognition performance by amplifying the target speech signal and dampening other interfering sources.Commonly this is achieved by classical signal processing and so-called beamforming which exploits time differences between the individual signals of multiple microphones to amplify signals from a certain region of space while suppressing signal from other directions.In this work, we leverage powerful neural networks which have been applied successfully to speech recognition and also to the signal processing component.But instead of replacing one model with another, we combine them and support statistical beamformers with a neural network to get the best of both worlds.We show that this setup can reduce the recognition error rates by more than half on two benchmarking datasets compared to a single-channel baseline.We then successively extend this system by reducing the latency to a frame-online operating mode, removing the need for simulated parallel data and optimizing the signal processing component jointly with the acoustic model.
Content
Stats
- The PDF-Document has been downloaded 147 times.
License/Rightsstatement