Bibliographic Metadata
Bibliographic Metadata
- TitleMultilingual Question Answering over Knowledge Graphs / Aleksandr Perevalov ; 1. Reviewer Prof. Dr. Axel-Cyrille Ngonga Ngomo, 2. Reviewer Prof. Dr. Andreas Both, 3. Reviewer Prof. Dr. Mike Scherfner
- Author
- Degree supervisor
- Published
- Description1 Online-Ressource (xxi, 163 Seiten) : Diagramme, Illustrationen
- Institutional NoteUniversität Paderborn, Dissertation, 2025
- AnnotationTag der Verteidigung: 04.11.2025
- Defended on2025-11-04
- LanguageEnglish
- Document TypesDissertation (PhD)
- Keywords (GND)
- URN
- DOI
Links
- Social MediaShare
- Reference
- IIIF
Files
Classification
Zusammenfassung
Aktuelle Statistiken über die Sprache der Web-Inhalte sowie über die Sprachen der Web-Nutzer legen nahe, dass 49.2% des Inhalts im Web nur von einem geringen Anteil der Web-Nutzer (25.9%), insbesondere den Englischsprechenden, zugänglich ist.Zudem bestehen im Web viele sprachliche Barrieren, da lokale Inhalte meist umfangreicher in der Muttersprache der jeweiligen Region verfügbar sind.Zum Beispiel sind Informationen über deutsche Städte in deutschsprachigen Quellen oft detaillierter als in anderen Sprachen.Folglich ist die Erforschung von Ansätzen, die es nicht-englischsprachigen Nutzern ermöglichen, durch Fragen in ihrer Muttersprache auf Web-Informationen zuzugreifen, höchst wertvoll, da es Barrieren bei der Informationszugänglichkeit reduziert.Die maschinenlesbaren Daten im Web, die nach den Standards des Semantic Web veröffentlicht sind, stellen einen globalen Wissensgraphen (engl. Knowledge Graph) dar.Daher dienen Frage-Antwort-Systeme über Wissensgraphen (sog. Knowledge-Graph-Question-Answering-Systeme) oft als zentrale Komponente, um das Informationsbedürfnis von Nutzern von Suchmaschinen zu erfüllen, indem sie direkte Antworten zu Fragen, die in mehreren Sprachen gestellt werden können, bereitstellen, die mit Web-Daten beantwortet werden können.Jedoch wird der mehrsprachige Aspekt, insbesondere hinsichtlich ressourcenarmer Sprachen (engl. low-resource languages), im Bereich des Knowledge Graph Question Answering häufig vernachlässigt.Dieses Problem ergibt sich insbesondere aus dem Mangel an verlässlichen Evaluierungsdaten sowie aus der unzureichenden Forschung darüber, wie (gut) heutige Knowledge-Graph-Question-Answering-Systeme in anderen Sprachen als Englisch funktionieren.Diese Dissertation zielt darauf ab, eine grundlegende Forschungsfrage zu beantworten, nämlich wie mehrsprachige Knowledge-Graph-Question-Answering-Systeme aufgebaut werden können, die über mehrere Sprachen hinweg gleichbleibend gute Ergebnisqualität liefern, einschließlich ressourcenarmer Sprachen.Um diese Frage zu beantworten, analysieren und evaluieren wir systematisch existierende Ansätze, erstellen einen neuen mehrsprachigen Benchmark-Datensatz und schlagen neuartige Methoden vor, die die Qualität der Systeme verbessern und gleichzeitig ihre mehrsprachige Funktionalität erhalten.Diese Dissertation leistet somit folgende Beiträge zur Forschung: (a) eine systematische Analyse existierender Benchmark-Datensätze und Systeme mit besonderem Fokus auf mehrsprachiges Knowledge Graph Question Answering, (b) die Erstellung eines neuartigen mehrsprachigen Benchmark-Datensatzes, (c) die Implementierung von Komponenten für Knowledge-Graph-Question-Answering-Systeme sowie deren empirische Evaluation und schließlich (d) die Entwicklung eines Knowledge-Graph-Question-Answering-Systems, welches ausdrücklich die genannten Herausforderungen adressiert, insbesondere im Hinblick auf Qualitätsverbesserungen in mehrsprachigen Szenarien.Diese Dissertation ist in fünf Teile gegliedert, wobei jeder Teil grundlegende Aspekte des mehrsprachigen Knowledge Graph Question Answering behandelt.Der erste Teil präsentiert eine ausführliche Literaturübersicht und schlägt einen taxonomischen Rahmen zur systematischen Kategorisierung sowie Analyse existierender mehrsprachiger Knowledge-Graph-Question-Answering-Systeme vor.Diese Übersicht dient als Grundlage für das Verständnis der aktuellen Forschungslandschaft im Bereich des mehrsprachigen Knowledge Graph Question Answering sowie zur Identifikation existierender Forschungslücken, insbesondere: (1) der Mangel an zuverlässigen Benchmark-Datensätzen, (2) die fehlende Untersuchung zur maschinellen Übersetzung mehrsprachiger Eingaben in die von Systemen unterstützten Sprachen, (3) das Fehlen von Ansätzen zur Validierung der Ausgabe von Knowledge Graph Question Answering-Systemen und (4) die Abwesenheit von agentengestützten Systemen, die auf großen Sprachmodellen basieren (large language model agent-based systems), die im Kontext von mehrsprachigem Knowledge Graph Question Answering systematisch evaluiert wurden.Daher stellt der zweite Teil der Dissertation einen neuartigen mehrsprachigen Benchmark-Datensatz QALD-9-plus für mehrsprachiges Knowledge Graph Question Answering vor, zusammen mit einer verallgemeinerbaren Methodik zur Erstellung und Erweiterung solcher Benchmarks.Dieser Benchmark umfasst Fragen in zehn Sprachen: Englisch, Deutsch, Spanisch, Französisch, Litauisch, Russisch, Ukrainisch, Armenisch, Belarussisch und Baschkirisch (wobei die beiden letztgenannten von der UNESCO als potenziell gefährdet eingestuft werden).Der QALD-9-plus-Benchmark wird in den anderen Teilen dieser Dissertation wiederverwendet.Der dritte Teil untersucht die Eignung der maschinellen Übersetzung (engl. Machine Translation) als Alternative zu spezialisierten mehrsprachigen Systemen im Bereich des Knowledge Graph Question Answering sowie die Implikationen des Einsatzes in solchen Systemen.In diesem Teil integrieren wir Werkzeuge zur maschinellen Übersetzung in bestehende Knowledge-Graph-Question-Answering-Systeme, um deren mehrsprachige Fähigkeiten zu erweitern, und vergleichen die resultierende Qualität.Diesen Ansatz evaluieren wir anhand unseres QALD-9-plus-Benchmarks.Der vierte Teil schlägt einen neuartigen Ansatz zur Verbesserung der Qualität von mehrsprachigen Knowledge-Graph-Question-Answering-Systemen vor, indem Sprachmodelle zur Validierung der Antworten integriert werden.Die Antwort eines solchen Systems ist eine sortierte Liste von Anfragekandidaten, welche in der Abfragesprache SPARQL ausgedrückt sind und validiert werden müssen, um falsche Anfragen zu vermeiden.Hierbei werden inkorrekte Anfragen aus der sortierten Liste der SPARQL-Anfragekandidaten herausgefiltert (d. h. ausgeschlossen).Dieser Ansatz wurde mit unserem QALD-9-plus-Benchmark evaluiert.Der fünfte Teil präsentiert ein mehrsprachiges Knowledge-Graph-Question-Answering-System auf Basis eines agentengestützten großen Sprachmodells (engl. large language model agent), das aus mehreren Komponenten besteht.Diese Komponenten beinhalten einen Feedbackmechanismus mit der Umgebung, eine Long-Term-Memory-Funktion, eine Planungsfunktionalität sowie eine Schnittstelle zur Nutzung externer Werkzeuge (engl. tool-calling interface).Zu diesen Komponenten gehören auch die maschinelle Übersetzung und die SPARQL-Anfragevalidierung aus dem dritten und vierten Teil.Darüber hinaus bieten wir eine detaillierte Analyse darüber, wie diese Komponenten die Antwortqualität beeinflussen, und bewerten ihre Kosteneffizienz.Auch in diesem Teil verwenden wir den QALD-9-plus-Benchmark für die Evaluation.Die Dissertation schließt mit einer umfassenden Diskussion, in der aufkommende Herausforderungen identifiziert, neue Forschungslücken und -fragen aufgezeigt sowie weiterführende Einsichten in den Bereich des mehrsprachigen Knowledge Graph Question Answering aus den Ergebnissen dieser Forschungsarbeit synthetisiert werden.
Abstract
Recent statistics on the Web's content language and users' spoken languages suggest that 49.2% of the content on the Web is accessible to a minor share of the Web users (25.9%) - English speakers.In addition, the Web has multiple language barriers e.g., geographically local content tends to be more comprehensive in the native language of the region. For example, information about German cities is often more detailed in sources in German than in other languages. Hence, researching approaches that enable non-English speakers to access Web information using questions in their native languages is highly valuable as it reduces information accessibility barriers on the Web.The machine-readable data on the Web, published according to the Semantic Web standards, forms a giant global Knowledge Graph. Consequently, Knowledge Graph Question Answering systems often serve as a core component in fulfilling the information needs of search engine users by providing direct answers to questions asked over the data on the Web in multiple languages.However, the multilingual aspect, particularly regarding low-resource languages, is often overlooked in the Knowledge Graph Question Answering field.This issue mainly arises due to the lack of reliable evaluation data and insufficient research on how state-of-the-art Knowledge Graph Question Answering systems perform in languages other than English.Our thesis aims to answer a fundamental research question: how to enable multilingual Knowledge Graph Question Answering systems to deliver equally good quality in multiple languages, including low-resource ones? To answer this question, we systematically review and evaluate existing approaches, create a new multilingual benchmarking dataset, and propose novel methods to improve the quality of the systems while preserving multilingual functionality.Our results contribute to the research field by (a) systematically analyzing existing benchmarking datasets and systems, with a specific focus on multilingual Knowledge Graph Question Answering, (b) creating a novel multilingual benchmarking dataset, (c) implementing individual components for Knowledge Graph Question Answering systems and empirically evaluating them, and, finally, (d) developing a Knowledge Graph Question Answering system that explicitly addresses the outlined challenges, particularly regarding quality improvement in multilingual settings. This thesis is structured in five parts, each addressing fundamental aspects of multilingual Knowledge Graph Question Answering. The first part presents a literature review and proposes a taxonomic framework for the systematic categorization and analysis of existing multilingual Knowledge Graph Question Answering systems.This review serves as a foundation for understanding the current landscape of multilingual Knowledge Graph Question Answering and its research gaps. In particular, several key issues have been identified. First, there is a lack of reliable benchmarking datasets. Second, no investigation has been conducted on machine translating multilingual input to the languages supported by systems. Third, there is an absence of approaches that validate output of Knowledge Graph Question Answering systems. Fourth, no large language model agent-based systems have been proposed that were evaluated on multiple languages within the task of Knowledge Graph Question Answering.Considering the aforementioned challenge regarding the lack of benchmarking data, the second part of our thesis introduces a novel multilingual benchmarking dataset for multilingual Knowledge Graph Question Answering - QALD-9-plus, accompanied by a generalizable methodology for creating and extending such benchmarks. The benchmark contains questions in 10 languages: English, German, Spanish, French, Lithuanian, Russian, Ukrainian, Armenian, Belarusian, and Bashkir (the latter two are considered potentially vulnerable by UNESCO).We reuse the QALD-9-plus benchmark in the subsequent parts of this dissertation.The third part examines the viability of Machine Translation as an alternative to dedicated multilingual systems in Knowledge Graph Question Answering and the implications of its usage in such systems.In this part, we connect machine translation tools with Knowledge Graph Question Answering systems to extend their multilingual capabilities and compare the resulting quality.We evaluated this approach on our QALD-9-plus benchmark. The fourth part proposes a novel approach to improving the quality of multilingual Knowledge Graph Question Answering systems by integrating language models for response validation.The system's response, a ranked list of SPARQL query candidates, must be validated to avoid incorrect queries. Therefore, the incorrect queries are filtered (i.e., excluded) from the ranked SPARQL query candidate list.This approach was evaluated on our QALD-9-plus benchmark.The fifth part presents a multilingual Knowledge Graph Question Answering system based on a large language model agent, incorporating multiple components. These components include an environmental feedback mechanism, long-term memory capability, planning functionality, and a tool-calling interface. The components include machine translation and SPARQL query validation from the third and fourth parts.In addition, we provide a detailed analysis of how these components influence response quality and analyze their cost efficiency.This part also uses the QALD-9-plus benchmark for the evaluation. The dissertation concludes with a comprehensive discussion that identifies emerging challenges and proposes new research gaps and questions, and synthesizes broader insights into the field of multilingual Knowledge Graph Question Answering derived from this body of research.
Content
License/Rightsstatement

