TY - THES AB - Aktuelle Statistiken über die Sprache der Web-Inhalte sowie über die Sprachen der Web-Nutzer legen nahe, dass 49.2% des Inhalts im Web nur von einem geringen Anteil der Web-Nutzer (25.9%), insbesondere den Englischsprechenden, zugänglich ist.Zudem bestehen im Web viele sprachliche Barrieren, da lokale Inhalte meist umfangreicher in der Muttersprache der jeweiligen Region verfügbar sind.Zum Beispiel sind Informationen über deutsche Städte in deutschsprachigen Quellen oft detaillierter als in anderen Sprachen.Folglich ist die Erforschung von Ansätzen, die es nicht-englischsprachigen Nutzern ermöglichen, durch Fragen in ihrer Muttersprache auf Web-Informationen zuzugreifen, höchst wertvoll, da es Barrieren bei der Informationszugänglichkeit reduziert.Die maschinenlesbaren Daten im Web, die nach den Standards des Semantic Web veröffentlicht sind, stellen einen globalen Wissensgraphen (engl. Knowledge Graph) dar.Daher dienen Frage-Antwort-Systeme über Wissensgraphen (sog. Knowledge-Graph-Question-Answering-Systeme) oft als zentrale Komponente, um das Informationsbedürfnis von Nutzern von Suchmaschinen zu erfüllen, indem sie direkte Antworten zu Fragen, die in mehreren Sprachen gestellt werden können, bereitstellen, die mit Web-Daten beantwortet werden können.Jedoch wird der mehrsprachige Aspekt, insbesondere hinsichtlich ressourcenarmer Sprachen (engl. low-resource languages), im Bereich des Knowledge Graph Question Answering häufig vernachlässigt.Dieses Problem ergibt sich insbesondere aus dem Mangel an verlässlichen Evaluierungsdaten sowie aus der unzureichenden Forschung darüber, wie (gut) heutige Knowledge-Graph-Question-Answering-Systeme in anderen Sprachen als Englisch funktionieren.Diese Dissertation zielt darauf ab, eine grundlegende Forschungsfrage zu beantworten, nämlich wie mehrsprachige Knowledge-Graph-Question-Answering-Systeme aufgebaut werden können, die über mehrere Sprachen hinweg gleichbleibend gute Ergebnisqualität liefern, einschließlich ressourcenarmer Sprachen.Um diese Frage zu beantworten, analysieren und evaluieren wir systematisch existierende Ansätze, erstellen einen neuen mehrsprachigen Benchmark-Datensatz und schlagen neuartige Methoden vor, die die Qualität der Systeme verbessern und gleichzeitig ihre mehrsprachige Funktionalität erhalten.Diese Dissertation leistet somit folgende Beiträge zur Forschung: (a) eine systematische Analyse existierender Benchmark-Datensätze und Systeme mit besonderem Fokus auf mehrsprachiges Knowledge Graph Question Answering, (b) die Erstellung eines neuartigen mehrsprachigen Benchmark-Datensatzes, (c) die Implementierung von Komponenten für Knowledge-Graph-Question-Answering-Systeme sowie deren empirische Evaluation und schließlich (d) die Entwicklung eines Knowledge-Graph-Question-Answering-Systems, welches ausdrücklich die genannten Herausforderungen adressiert, insbesondere im Hinblick auf Qualitätsverbesserungen in mehrsprachigen Szenarien.Diese Dissertation ist in fünf Teile gegliedert, wobei jeder Teil grundlegende Aspekte des mehrsprachigen Knowledge Graph Question Answering behandelt.Der erste Teil präsentiert eine ausführliche Literaturübersicht und schlägt einen taxonomischen Rahmen zur systematischen Kategorisierung sowie Analyse existierender mehrsprachiger Knowledge-Graph-Question-Answering-Systeme vor.Diese Übersicht dient als Grundlage für das Verständnis der aktuellen Forschungslandschaft im Bereich des mehrsprachigen Knowledge Graph Question Answering sowie zur Identifikation existierender Forschungslücken, insbesondere: (1) der Mangel an zuverlässigen Benchmark-Datensätzen, (2) die fehlende Untersuchung zur maschinellen Übersetzung mehrsprachiger Eingaben in die von Systemen unterstützten Sprachen, (3) das Fehlen von Ansätzen zur Validierung der Ausgabe von Knowledge Graph Question Answering-Systemen und (4) die Abwesenheit von agentengestützten Systemen, die auf großen Sprachmodellen basieren (large language model agent-based systems), die im Kontext von mehrsprachigem Knowledge Graph Question Answering systematisch evaluiert wurden.Daher stellt der zweite Teil der Dissertation einen neuartigen mehrsprachigen Benchmark-Datensatz QALD-9-plus für mehrsprachiges Knowledge Graph Question Answering vor, zusammen mit einer verallgemeinerbaren Methodik zur Erstellung und Erweiterung solcher Benchmarks.Dieser Benchmark umfasst Fragen in zehn Sprachen: Englisch, Deutsch, Spanisch, Französisch, Litauisch, Russisch, Ukrainisch, Armenisch, Belarussisch und Baschkirisch (wobei die beiden letztgenannten von der UNESCO als potenziell gefährdet eingestuft werden).Der QALD-9-plus-Benchmark wird in den anderen Teilen dieser Dissertation wiederverwendet.Der dritte Teil untersucht die Eignung der maschinellen Übersetzung (engl. Machine Translation) als Alternative zu spezialisierten mehrsprachigen Systemen im Bereich des Knowledge Graph Question Answering sowie die Implikationen des Einsatzes in solchen Systemen.In diesem Teil integrieren wir Werkzeuge zur maschinellen Übersetzung in bestehende Knowledge-Graph-Question-Answering-Systeme, um deren mehrsprachige Fähigkeiten zu erweitern, und vergleichen die resultierende Qualität.Diesen Ansatz evaluieren wir anhand unseres QALD-9-plus-Benchmarks.Der vierte Teil schlägt einen neuartigen Ansatz zur Verbesserung der Qualität von mehrsprachigen Knowledge-Graph-Question-Answering-Systemen vor, indem Sprachmodelle zur Validierung der Antworten integriert werden.Die Antwort eines solchen Systems ist eine sortierte Liste von Anfragekandidaten, welche in der Abfragesprache SPARQL ausgedrückt sind und validiert werden müssen, um falsche Anfragen zu vermeiden.Hierbei werden inkorrekte Anfragen aus der sortierten Liste der SPARQL-Anfragekandidaten herausgefiltert (d. h. ausgeschlossen).Dieser Ansatz wurde mit unserem QALD-9-plus-Benchmark evaluiert.Der fünfte Teil präsentiert ein mehrsprachiges Knowledge-Graph-Question-Answering-System auf Basis eines agentengestützten großen Sprachmodells (engl. large language model agent), das aus mehreren Komponenten besteht.Diese Komponenten beinhalten einen Feedbackmechanismus mit der Umgebung, eine Long-Term-Memory-Funktion, eine Planungsfunktionalität sowie eine Schnittstelle zur Nutzung externer Werkzeuge (engl. tool-calling interface).Zu diesen Komponenten gehören auch die maschinelle Übersetzung und die SPARQL-Anfragevalidierung aus dem dritten und vierten Teil.Darüber hinaus bieten wir eine detaillierte Analyse darüber, wie diese Komponenten die Antwortqualität beeinflussen, und bewerten ihre Kosteneffizienz.Auch in diesem Teil verwenden wir den QALD-9-plus-Benchmark für die Evaluation.Die Dissertation schließt mit einer umfassenden Diskussion, in der aufkommende Herausforderungen identifiziert, neue Forschungslücken und -fragen aufgezeigt sowie weiterführende Einsichten in den Bereich des mehrsprachigen Knowledge Graph Question Answering aus den Ergebnissen dieser Forschungsarbeit synthetisiert werden. AU - Perevalov, Aleksandr CY - Paderborn DO - 10.17619/UNIPB/1-2456 DP - Universität Paderborn LA - eng N1 - Tag der Verteidigung: 04.11.2025 N1 - Universität Paderborn, Dissertation, 2025 PB - Veröffentlichungen der Universität PY - 2025 SP - 1 Online-Ressource (xxi, 163 Seiten) : Diagramme, Illustrationen T2 - Heinz Nixdorf Institut (HNI) TI - Multilingual Question Answering over Knowledge Graphs UR - https://nbn-resolving.org/urn:nbn:de:hbz:466:2-56783 Y2 - 2026-01-12T11:34:19 ER -