Titelaufnahme

Titel
Learning shepherding behavior / Michael Baumann
Autor
Baumann, Michael
Beteiligte
Kleine Büning, Hans ; Hamann, Heiko
Erschienen
Paderborn, 2016
Ausgabe
Elektronische Ressource
Umfang
1 Online-Ressource (x, 211 Seiten) : Illustrationen
Hochschulschrift
Fakultät für Elektrotechnik, Informatik und Mathematik, Universität Paderborn, Univ., Dissertation, 2016
Anmerkung
Tag der Verteidigung: 22.01.2016
Verteidigung
2016-01-22
Sprache
Englisch
Dokumenttyp
Dissertation
URN
urn:nbn:de:hbz:466:2-23984

Links

Social Media

Share
Nachweis
Universitätsbibliothek Paderborn
IIIF
IIIF-Manifest

Dateien

Learning shepherding behavior [pdf 4.14 mb] / RIS

Klassifikation

Besondere Sammlungen → Veröffentlichungen der Universität → Fakultät für Elektrotechnik, Informatik und Mathematik → Institut für Informatik
Klassifikation (DDC) → Informatik, Informationswissenschaft, allgemeine Werke → Informatik, Wissen, Systeme → Informatik, Informationswissenschaft, allgemeine Werke
Klassifikation (DDC) → Informatik, Informationswissenschaft, allgemeine Werke → Informatik, Wissen, Systeme → Spezielle Computerverfahren

Zusammenfassung

Roboter, die Schafe hüten sowie die dazu nötigen Strategien zum Bewegen von Individuen zu einem Ziel, bieten vielseitige Anwendungen wie z. B. die Rettung von Menschen aus bedrohlichen Lagen oder der Einsatz schwimmender Roboter zur Beseitigung von Ölteppichen. In dieser Arbeit nutzen wir ein Multiagentensystem als Modell der Roboter und Schafe. Wir untersuchen die Komplexität des Schafehütens und zeigen einen Greedy-Algorithmus, der in linearer Laufzeit eine fast optimale Lösung berechnet. Weiterhin analysieren wir, wie solche Strategien gelernt werden können, da maschinelles Lernen oftmals vorteilhafte Lösungen findet. Im Folgenden nutzen wir Reinforcement Learning (RL) als Lernmethode. Damit RL Agenten ihr gelerntes Wissen auch in kontinuierlichen oder sehr großen Zustandsräumen (wie im betrachteten Szenario) vorhalten können, sind Methoden zur Wissensabstraktion nötig. Unsere Methoden kombinieren RL mit adaptiven neuronalen Verfahren und erlauben dem Agenten gleichzeitig Strategien sowie Darstellungen dieses Wissens zu lernen. Beide Verfahren basieren auf dem unüberwachten Lernverfahren Growing Neural Gas, das eine Vektorquantisierung lernt, indem es neuronale Einheiten im Eingaberaums platziert und bewegt. GNG-Q gruppiert benachbarte Zustände die gleiches Verhalten erfordern (Zustandsraumapproximation); I-GNG-Q wiederum kombiniert Wissen, um eine glatte Bewertungsfunktion zu erhalten (Approximation der Bewertungsfunktion des RL-Agenten). Beide Verfahren beobachten das Verhalten des Lerners um Stellen der Approximation zu finden, die noch verfeinert werden müssen. Die Hauptvorteile unserer Verfahren sind u.a., dass sie ohne Kenntnis des Modells der Umgebung automatisch eine passende Auflösung der Approximation bestimmen. Die experimentelle Analyse unterstreicht, dass unsere Methoden sehr effiziente und effektive Strategien erzeugen.

Abstract

Artificial shepherding strategies, i.e. using robots to move individuals to given locations, have many applications. For example, people can be guided by mobile robots from dangerous places or swimming robots may help to clean up oil spills. This thesis uses a multiagent system to model the robots and sheep. We analyze the complexity of the shepherding task and present a greedy algorithm that only needs linear time to compute a solution that is proven to be close to optimal. Additionally, we analyze to what extend such strategies can be learned as learning usually provides powerful solutions. This thesis focuses on reinforcement learning (RL) as learning method. To enable RL agents to use their knowledge more efficiently in continuous or large state spaces (as e.g. in the shepherding task), methods to transfer knowledge to unseen but similar situations are required. The approaches developed in this thesis, GNG-Q and I-GNG-Q, combine RL with adaptive neural algorithms and enable the agent to learn behavior in parallel with its representation. Both are based upon the growing neural gas, which is an unsupervised learning approach that learns a vector quantization by placing and adjusting units in the input space. GNG-Q groups states that are spatial close and share the same behavior while I-GNG-Q combines the learned behavior from a larger area of the approximation which results in smoother value functions. Thus, GNG-Q performs a state-space abstraction and I-GNG-Q approximates the value function. Both methods monitor the agent's policy during learning to find regions of the approximation that have to be refined. Amongst many others, the core advantages of our approaches are that they do not need the model of the environment and that the resolution of the approximation is determined automatically. The experimental evaluation underlines that the behaviors learned using our approaches are highly efficient and effective.

Inhalt

Inhalt des Werkes

Statistik

Das PDF-Dokument wurde 26 mal heruntergeladen.

Detailsuche

Bibliotheken

Projekt

Impressum

Datenschutz

Publizieren

Besondere Sammlungen

Digitalisierungsservice

Hilfe

Impressum

Datenschutz

Titelaufnahme