In den letzten Jahren ist das Linked Data Web zu einer größe von mehreren Milliarden Fakten angewachsen, die über tausende Wissensbasen verteilt sind. Die aktuelle englische Version der DBpedia Wissensbasis beschreibt beispielsweise 4.58 Millionen Dinge. Eine direkte Konsequenz der Verfügbarkeit dieser großen Menge an Daten im Resource Description Framework ist der wachsende Bedarf an effektiven und effizienten Link Discovery Algorithmen, die die Verbindungen zwischen den Wissensgraphen erstellen. Zu diesem Zweck wurden in den letzten Jahren mehrere Ansätze, die vor allem Algorithmen des maschinellen Lernens - von Wahrscheinlichkeitsmodellen bis zu genetischer Programmierung - verwenden, um die angestrebte Effektivität zu erreichen. Durch die schiere Größe der Wissensbasen wird neben der Generierung akkurater Links die Zeiteffizienz zu einer Herausforderung. Die meisten dieser Frameworks basieren auf atomaren oder komplexen Link Specifications, um Kandidaten für einen Link zu identifizieren. Diese Arbeit behandelt die Herausforderung der Erstellung zeiteffizienter Linking Algorithmen. Wir präsentieren mehrere Ansätze, die schnelles und skalierbares LD ermöglichen. Wir unterscheiden dabei zwei Untermengen: (1) Ansätze zur Optimierung der Effizienz atomarer LSs und (2) Ansätze zur schnelle Ausführung komplexer Ähnlichkeiten und LSs. Die Entwicklung der erste Untermenge wird durch das Fehlen von schnellen Ansätzen zum Verknüpfen von Ereignisdaten und der derzeitigen Performanz von semantischen Ähnlichkeiten für Zeichenketten in LD frameworks motiviert. Die zweite Menge besteht aus zeiteffizienten LD Ansätzen, die mit Zeit- und Speicherbeschränkungen umgehen können, sowie Planungsalgorithmen, die globales Wissen über die Ausführung von LSs verwenden und bisher fehlten.
Bibliographic Metadata
- TitleTime-efficient link discovery for data-driven applications / by Kleanthi Georgala ; Thesis Supervisor: Prof. Dr. Axel-Cyrille Ngonga Ngomo
- Author
- Participants
- Published
- Description1 Online-Ressource (xxii, 147 Seiten) : Diagramme
- Institutional NoteUniversität Paderborn, Dissertation, 2021
- AnnotationTag der Verteidigung: 28.05.2021
- Defended on2021-05-28
- LanguageEnglish
- Document TypesDissertation (PhD)
- URN
- DOI
- Social MediaShare
- Reference
- IIIF
Over recent years, the Linked Data Web has grown to contain billions of facts distributedover thousands of Knowledge Bases. For example, the English version of the DBpedia Knowledge Base currently describes 4.58 million things. A direct consequence of the availability of this large amount of data in Resource Description Framework is the heightened requirement for efficient and effective Link Discovery algorithms, which compute links between RDF Knowledge Graphs. A plethora of approaches have been developed for this purpose over recent years. These approaches address the challenge of effectiveness by providing solutions driven by Machine Learning techniques ranging from genetic programming to probabilistic models. In addition to addressing the need for accurate links, Link Discovery frameworks need to address the challenge of time efficiency. This challenge comes about because of the sheer size of Knowledge Bases that need to be linked. Under the declarative representation paradigm, most Link Discovery frameworks rely on atomic or complex Link Specifications to determine candidates. In this thesis, we focus on the challenge of time efficiency and we propose a set of approaches towards fast and scalable Link Discovery. We devise two families of approaches: (1) approaches for optimizing the efficiency of atomic similarities for Link Discovery; and (2) approaches towards the fast execution of complex similarities and Link Specifications. Regarding the first set of approaches, we are motivated by the absence of fast approaches for linking event data and the current performance of semantic string similarities in linking frameworks. The second family is built upon time-efficient Link Discovery approaches that operate under time and space constraints, and the absence of planning approaches, which exploit global knowledge about the execution of Link Specifications.
- The PDF-Document has been downloaded 67 times.