Titelaufnahme
Titelaufnahme
- TitelLocal Scale-Invariant Contour Features for Object Recognition / Markus Hennig ; Erster Gutachter: Prof. Dr. Erdal Kayacan, Zweiter Gutachter: Prof. Dr. Reinhold Häb-Umbach
- Autor
- Gutachter
- Erschienen
- Umfang1 Online-Ressource (viii, 129 Seiten) : Diagramme, Illustrationen
- HochschulschriftUniversität Paderborn, Dissertation, 2025
- AnmerkungTag der Verteidigung: 29.10.2025
- Verteidigung2025-10-29
- SpracheEnglisch
- DokumenttypDissertation
- Schlagwörter (GND)
- URN
- DOI
Links
- Social MediaShare
- Nachweis
- IIIF
Dateien
Klassifikation
Zusammenfassung
Die Objekterkennung ist eines der wichtigsten Probleme der digitalen Bildverarbeitung und kann mit verschiedenen Ansätzen und funktionalen Teilkomponenten adressiert werden. Dies umfasst verschiedene Vorverarbeitungsschritte, Merkmalstypen sowie Lern- und Klassifizierungsmethoden, abhängig von der spezifischen Aufgabe und den Einsatzbedingungen. Sowohl traditionelle als auch Deep-Learning-basierte Ansätze erfordern robuste Merkmale, die hinreichend deskriptiv und distinktiv sind, um Objekte oder Klassen zu erkennen und zu unterscheiden. In dieser Arbeit werden zwei neue Methoden zur Extraktion solcher Merkmale vorgestellt: Die erste bestimmt lokale, skalierungsinvariante Konturmerkmale um Krümmungsextrema. Die zweite stellt ein Mehrdeutigkeitsmodell mit Kantenverfolgung dar, um die Merkmale aus binären Kantenbildern zu extrahieren. Abschließend wird vorgeschlagen, die Methoden in einen Deep-Learning-basierten End-to-End-Ansatz zur Merkmalsdetektion zu integrieren. Neben technischen Überlegungen sind die Konturmerkmale von Erkenntnissen zur menschlichen Wahrnehmung motiviert. Insbesondere weisen Krümmungsextrema den größten Informationsgehalt entlang von Objektkonturen und eine hohe Salienz in der menschlichen Wahrnehmung auf. Eine Besonderheit der Merkmale ist die Zuordnung einer charakteristischen Skalierung. Während dies für ansichtenbasierte Merkmale verbreitet ist, fehlt eine robuste Methodik für Krümmungsextrema. Zur Extraktion wird ein skalenraumtheoretischer Ansatz verwendet, der dazu ein formalisiertes Bottom-Up-Framework bietet. Es wird gezeigt, dass die Konturmerkmale auch bei starken Größenänderungen, Rauschen und teilweiser Überdeckung zuverlässig extrahiert werden können. Außerdem werden Boxfilter-Ansätze analysiert und integriert, um Echtzeitfähigkeit zu erzielen, sowie eine neue Padding-Methode für offene Konturen vorgestellt. Binäre Kantenbilder enthalten oft Schnittpunkte, Kreuzungen und andere Strukturen, die die Extraktion kohärenter Objektkonturen erschweren. Diese sind jedoch zur Extraktion der Konturmerkmale sowie für andere Methoden erforderlich. Das in dieser Arbeit vorgestellte Mehrdeutigkeitsmodell wurde entwickelt, um solche Mehrdeutigkeiten zu beschreiben und aufzulösen. Obwohl das Modell nur vier einfache Prinzipien verwendet, kann es komplexe Strukturen in binären Kantenbildern auf intuitive und effektive Weise verarbeiten. Im Vergleich zu bestehenden Methoden bietet das Modell die differenzierteste Segmentierung und reduziert gleichzeitig Redundanzen (doppeltes Einlesen von Kantenpixeln). Es wird gezeigt, dass die Methode komplexe Mehrdeutigkeiten in verschiedenen Anwendungsbeispielen effektiv auflösen kann.
Abstract
Object recognition is one of the most important problems in computer vision and can be addressed using various techniques and functional subcomponents, including different preprocessing steps, feature types, and learning and classification schemes, depending on the specific task and operational conditions. Both traditional and deep learning-based methods require stable features that are sufficiently descriptive and distinctive to recognize and distinguish different objects or classes. In this work, two new methods to extract such features are presented: the first method determines local scale-invariant contour features around curvature extrema, while the second method introduces an ambiguity model with edge tracing to extract these features from binary edge images. At the end of this work, it is proposed to integrate the methods into a deep learning-based end-to-end feature detection approach. Besides technical rationales, the contour features presented in this work are inspired by insights from human vision research. In particular, curvature extrema are the most informative points along contours and highly salient in human vision. A unique aspect of the features is that they are assigned a characteristic scale. While this is a widely adopted approach for appearance-based features, there is no robust methodology for assigning characteristic scales to curvature extrema. The features are extracted using curvature scale-space analysis, which provides a formalized bottom-up framework for this task. Computational experiments demonstrate that the contour features can be reliably detected even under extreme scale changes, noise, and partial occlusion. In the context of this method, box filter approximations are analyzed, and a selected approach is integrated to achieve real-time capability. Furthermore, a new padding method is presented to process open contours. Binary edge images often include intersections, junctions, and other structures that make it difficult to extract coherent object contours. Nevertheless, such contours are required for extracting the contour features presented in this work and other methods. The ambiguity model presented in this work is designed to describe and resolve such ambiguities. Despite using only four straightforward principles, the model can handle complex structures in binary edge images in an intuitive and effective manner. Compared to existing methods, the model provides the most detailed decomposition of binary edge images into meaningful segments while also reducing redundancy (double reading of edge pixels). It is shown that the method can effectively resolve complex ambiguities in different application examples.
Inhalt
Lizenz-/Rechtehinweis

