Titelaufnahme
Titelaufnahme
- TitelExtending Speech Separation and Evaluation Measures for Meeting Transcription / Thilo von Neumann ; First Reviewer: Prof. Dr. Reinhold Häb-Umbach, Second Reviewer: Priv. Doz. Dr. rer .nat. Ralf Schlüter
- Autor
- Gutachter
- Erschienen
- Umfang1 Online-Ressource (xii, 141 Seiten) : Diagramme
- HochschulschriftUniversität Paderborn, Dissertation, 2026
- AnmerkungTag der Verteidigung: 24.02.2026
- Verteidigung2026-02-24
- SpracheEnglisch
- DokumenttypDissertation
- Schlagwörter (GND)
- URN
- DOI
Links
- Social MediaShare
- Nachweis
- IIIF
Dateien
Klassifikation
Zusammenfassung
Die Transkribierung von Gesprächssituationen ist zu einem wichtigen Thema im Bereich der Sprachverarbeitung geworden. Als Aufgabe, die Frage zu beantworten, wer was wann in langen Aufnahmen mit teilweise überlappender Sprache gesagt hat, umfasst sie die Transkription von Sprache (was wurde gesagt?), die Diarisierung (wer hat wann gesprochen?) und, entweder explizit oder implizit, die Sprachseparierung (Wiederherstellung des Sprachsignals jedes Sprechers). Das Lösen der Kombination dieser Unterprobleme bei langen Aufnahmen stellt Herausforderungen dar, die bei den Teilaufgaben allein nicht auftreten. Diese Arbeit befasst sich speziell mit der Lösung des sogenannten Zuordnungsproblems (Assignment Problem), d. h. der Suche nach einer plausiblen Zuordnung oder Abbildung zwischen den wahren Annotationen und der Ausgabe eines Besprechungstranskriptionssystems oder eines seiner Teilsysteme. Eine solche Zuordnung ist notwendig sowohl dann, wenn eine Kostenfunktion im Training berechnet werden soll, als auch, wenn die Leistung eines Transkriptionssystems bewertet werden soll. Um Systeme für Gesprächssituationen zu bewerten wird die die Wortfehlerrate (Word Error Rate, WER) von der Bewertung einzelner Aussagen auf Besprechungen erweitert. In die Wortfehlerrate wird eine zeitliche Beschränkung integriert, die sicherstellt, dass Wörter, die als korrekt erkannt werden, auch physikalisch plausibel vom selben akustischen Event stammen können. Außerdem werden Verfahren vorgestellt, wie das Zuordnungsproblem während der Berechnung der Wortfehlerrate für verschiedene Systemarchitekturen and Analysezwecke gelöst werden kann. Anschließend wird hergeleitet, wie das Zuordnungsproblem für das Training eines Neuronalen Netzes zur Sprechertrennung gelöst werden kann. Dies geschieht als Erweiterung des häufig verwendeten Aussagenweisen Permutations-invarianten Trainings (Utterance-level Permutation Invariant Training, uPIT) auf ganze Meetingaufnahmen. Das daraus resultierende Trainingsschema, Graph-PIT, erlaubt es, lange Aufnahmen zu verarbeiten, ohne auf eine Fensterung zurückgreifen zu müssen. Abschließend wird ein volles System zur Transkription von Gesprächssituationen vorgestellt, das basierend auf der Sprecherseparierung erst Spracherkennung und dann Diarisierung durchführt. Dabei werden in der Diarisierung Informationen aus der Spracherkennung wiederverwendet, um die zeitliche Auflösung und damit auch die Sprechererkennung zu verbessern. Das vorgestellte System zeigt eine vergleichbare Transkriptionsqualität wie komplexere Systeme aus der Literatur.
Abstract
Meeting transcription has become an important topic in the field of speech processing. As the task of answering the question who said what and when for long recordings of partially overlapping speech, it encompasses speech transcription (what was said?), diarization (who spoke when?), and, either explicitly or implicitly, speech separation (recovering the speech signal of each speaker). Solving the combination of these problems on arbitrarily long recordings poses challenges that have not been present for the sub-tasks alone. This work specifically discusses how to solve the so-called assignment problem, i.e., finding a plausible assignment or mapping between the ground-truth annotations and the output of a meeting transcription system, or one of its sub-systems. Such an assignment is required when computing a loss function for the training of meeting transcription system or when computing a performance measure. For performance assessment, the Word Error Rate (WER) is extended from the single-utterance evaluation case to the meeting scenario. A temporal constraint is incorporated into the WER such that the obtained alignments stay physically plausible also for long transcriptions. Multiple ways are presented to solve the assignment problem when computing the WER for different system architectures and analysis purposes. After that, it is shown how to solve the assignment problem for the training of a speech separation system by extending the utterance-level Permutation-Invariant Training (uPIT) scheme initially proposed for short fully overlapped speech separation to the meeting scenario. The resulting training technique, named Graph-PIT, enables processing of long recordings without a sliding window approach. Finally, a separation-first and diarization-last pipeline for meeting transcription is built that exploits information about word positions from the speech recognition stage in the diarization. It is shown that this pipeline is competitive with other, often more complex, pipelines.
Inhalt
Lizenz-/Rechtehinweis

