Bibliographic Metadata
Bibliographic Metadata
- TitleKnowledge extraction for the data web / René Speck ; Reviewers: Prof. Dr. Axel-Cyrille Ngonga Ngomo, Prof. Dr. Thomas Riechert
- Author
- Degree supervisor
- Published
- Description1 Online-Ressource (xxiii, 203 Seiten) Illustrationen, Diagramme
- Institutional NoteUniversität Paderborn, Dissertation, 2024
- AnnotationTag der Verteidigung: 08.11.2024
- Defended on2024-11-08
- LanguageEnglish
- Document TypesDissertation (PhD)
- Keywords (GND)
- URN
- DOI
Links
- Social MediaShare
- Reference
- IIIF
Files
Classification
Zusammenfassung
Die Wissensextraktion ist ein wesentlicher Bestandteil in vielen Forschungsanwendungen. Unser erster Beitrag basiert auf Ensemblemethoden für die Erkennung von Entitäten und erreicht eine Reduzierung der Fehlerrate um 40%. Wir stellen unsere Ergebnisse mit Fox zur Verfügung, ein Framework, das einen Wissensgraphen mit maschinenverarbeitbaren Standards als Ausgabe serialisiert. Wir schlagen Cetus vor, ein auf Muster basierender Ansatz für die Extraktion von Entitätstypen und für das Befüllen von Wissensgraphen. Wir präsentieren unsere Untersuchungen zu holistischen Ansätzen für das verlinkten von Entitäten und schlagen unser Referenzframework für diese Kernaufgaben vor. Wir stellen Ocelot vor, ein Ansatz für die Extraktion von vordefinierten Relationen basierend auf distributionaler Semantik und einer Baumgeneralisierung. Unser Ansatz verallgemeinert Muster in Dependenzbäumen von hoher Qualität und extrahiert Relationen aus Text mit diesen Baumgeneralisierungen. Mit unserem Scms Ansatz erleichtern wir die semantische Datenintegration in Content-Management-Systemen. Unser Ansatz unterstützt Inhalte zu semantisieren und damit eine effizientere Entscheidungsfindung. Wir berichten über unseren Ansatz Leopard, der für die Vorhersage und Validierung von Attributen sowie für die Befüllung von Wissensgraphen entwickelt wurde. Unser Ansatz unterstützt dabei die Genauigkeit und Vollständigkeit von Wissensgraphen zu verbessern. Leopard kombiniert eine Vielzahl von Wissens- und Textextraktionsmethoden und nutzt Quellen sowohl aus dem mehrsprachigen Web der Dokumente, als auch dem mehrsprachigen Web der Daten, unter Einbeziehung von Rankingverfahren. Abschließend skizzieren wir unsere Teilnahme an der Open Knowledge Extraction Challenge.
Abstract
Knowledge extraction is an essential component in numerous applications across various fields of research. Our first contribution is based on ensemble learning for named entity recognition and achieves a 40\% error rate reduction on this task. We provide our results with Fox, a framework that serializes a knowledge graph with well-defined machine-processable standard as its output. We propose Cetus, a pattern-based entity type extraction approach to populate knowledge graphs. We present our survey on holistic entity linking and our reference framework for this core task. We introduce Ocelot, a distant supervised closed relation extraction approach based on distributional semantics and a tree generalization. Our approach harvests generalized dependency tree patterns of high quality and extracts relations from text with its generalized trees. With our SCMS approach, we facilitate semantic data integration with our Fox framework in content management systems to semantify their content and to support efficient decision-making. We report on our participation in the Semantic Web challenge with our approach, Leopard, which was designed for the prediction and validation of attributes, as well as for the population of knowledge graphs. Thus, our approach improves accuracy and completeness of knowledge graphs. Leopard combines a variety of diverse knowledge and text extraction methods, leveraging sources from both the multilingual Document Web and the multilingual Data Web, while incorporating precision ranking techniques. Lastly, we outline our participation in the Open Knowledge Extraction Challenge, elaborating on how we utilized our proposed approaches during the challenge. Overall, we believe that our contributions constitute a significant step forward in the field of knowledge extraction and knowledge graph creation.
Content
Stats
- The PDF-Document has been downloaded 26 times.
License/Rightsstatement