TY - THES AB - Die automatische Spracherkennung ist eine wichtige Komponente für eine sprachgestützte Mensch-Maschine Kommunikation und hat wurde in den letzten Jahre signifikant verbessert.Diese Verbesserungen sind größtenteils auf die Verwendung von tiefen Neuronalen Netzwerken zurückzuführen, welche in der Lage sind, große Menge an Trainingsdaten zu nutzen und davon zu profitieren.Dennoch ist die Erkennung von Sprache aus größeren Entfernungen vor allem in lauten Umgebungen immer noch problematisch und fehlerbehaftet.In diesen Fernfeld-Szenarien können räumliche Merkmale die Erkennungsleistung steigern, indem sie die Sprache des zu erkennenden Sprechers verstärken und andere Umgebungsgeräusche dämpfen.In der Regel wird hierzu klassische Signalverarbeitung in Form des so genannten statistischen Beamformings verwendet.Dieses nutzt die zeitlichen Differenzen zwischen den einzelnen Signalen bei einer Aufnahme mit mehreren Mikrofonen, um Signale aus einer bestimmten räumlichen Richtung zu verstärken und die aus anderen Richtungen zu dämpfen.In dieser Arbeit wird die Nutzung leistungsstarker Neuronaler Netzwerke, welche bereits erfolgreich in der Spracherkennung angewendet werden, auch für die Signalverarbeitungskomponente erforscht.Anstatt jedoch nur ein Modell durch ein anderes zu ersetzen, werde diese kombiniert und statistisches Beamforming mit Neuronalen Netzen unterstützt, um das Beste aus beiden Welten zu vereinen.Wir zeigen, dass diese Kombination die Erkennungsfehler, verglichen mit der einkanaligen Baseline, auf zwei Testdatensätzen mehr als halbiert.Darauf aufbauend, erweitern wir dieses System Schritt für Schritt, indem wir die Latenz auf ein Frame reduzieren, die Abhängigkeit von parallelen simulierten Daten entfernen und die Signalverarbeitungskomponente gemeinsam mit der Spracherkennungskomponente trainieren. AU - Heymann, Jahn CY - Paderborn DA - 2020 DO - 10.17619/UNIPB/1-1061 DP - Universität Paderborn LA - eng N1 - Tag der Verteidigung: 02.12.2020 N1 - Universität Paderborn, Dissertation, 2020 PB - Veröffentlichungen der Universität PY - 2020 SP - 1 Online-Ressource (viii, 152 Seiten) T2 - Institut für Elektrotechnik und Informationstechnik TI - Robust multi-channel speech recognition with neural network supported statistical beamforming UR - https://nbn-resolving.org/urn:nbn:de:hbz:466:2-38203 Y2 - 2025-07-08T12:27:37 ER -