Zur Seitenansicht
 

Titelaufnahme

Titel
Learning and coordination in sequential multiagent problems
AutorKemmerich, Thomas In der Gemeinsamen Normdatei der DNB nachschlagen
PrüferKleine Büning, Hans In der Gemeinsamen Normdatei der DNB nachschlagen ; Meyer auf der Heide, Friedhelm In der Gemeinsamen Normdatei der DNB nachschlagen
Erschienen2012
HochschulschriftPaderborn, Univ., Diss., 2012
Anmerkung
Tag der Verteidigung: 06.07.2012
SpracheEnglisch
DokumenttypDissertation
URNurn:nbn:de:hbz:466:2-9112 Persistent Identifier (URN)
Dateien
Learning and coordination in sequential multiagent problems [108.44 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

In dieser Arbeit beschäftigen wir uns damit, wie Geräte (oder Agenten) in großen verteilen Systemen autonom lernen können, ihre Aktionen so zu koordinieren, dass eine gemeinsame Aufgabe möglichst gut gelöst wird. Insbesondere konzentrieren wir uns auf Probleme, die aus einer Abfolge verschiedener Situationen bestehen. Wir nehmen an, dass eine Problemlösung (Strategie) während des Betriebs gelernt wird und nur für die aktuelle Situation relevant ist. In der folgenden Situation können gelernte Strategien ggf. angepasst und weiter verwendet werden, oder sie müssen wegen zu großen Unterschieden verworfen werden. Wir stellen ein Modell auf, mit dessen Hilfe solche Probleme formal modelliert werden können und entwickeln darauf aufbauend einen verteilten Lernansatz. Dieses sogenannte Distributed Stateless Learning (DSL) Verfahren lernt mittels Reinforcement Learning, d.h. es lernt welche individuelle Aktion im Zusammenspiel mit dem Verhalten der anderen Agenten aktuell sinnvoll ist, indem Aktionen ausgeführt und numerische Rückmeldungen über die Aktionsgüte in den Lernprozess einbezogen werden. Um das Lernen in sehr großen Systemen zu beschleunigen, untersuchen wir zusätzlich verschiedene Koordinationsstrategien, die beispielsweise Wissen in der Umgebung ablegen oder bei denen Agenten lokal Informationen austauschen. Der entwickelte Ansatz wird theoretisch und empirisch untersucht, und wir zeigen, dass DSL in der Lage ist, optimale oder beinahe optimale Lösungen zu lernen. Neben diesen Ergebnissen stellen wir weitere Verfahren und Konzepte vor und geben Einblicke in relevante Fragestellungen, wie bspw. das Lernen mit verrauschten Wahrnehmungen. Am Ende bleibt festzuhalten, dass diese Arbeit erste Einsichten in das betrachtete Problemszenario bietet und dass effizientes Lernen in diesem Umfeld mittels DSL möglich ist.

Zusammenfassung (Englisch)

This thesis deals with learning and coordination in large and distributed systems. We focus on settings that show an interesting and frequently observable structure. Namely, devices (agents, hereafter) are often confronted with a sequence of different-probably, but not necessarily comparable-situations. The agents have to solve a common task and, thus, have to learn a good coordinated behavior for each situation. When a new setting occurs, old strategies might either become useless or establish a good basis for further adaption, depending on the similarity of the previous and the new situation. Models for these problems quickly become complex and introduce research questions on their own. Hence, to focus on the learning process, we will deal with simple sequences of stateless games. Each game is played repeatedly for a certain number of iterations, which the agents do not know in advance, before a new game occurs. We develop a model, called sequential stage games (SSG), that formalizes such problems, and establish some required foundations. Then, we propose Distributed Stateless Learning (DSL), which is a multiagent reinforcement learning approach for cooperative SSGs. To speed up learning in systems with thousands of agents, we also develop several coordination strategies. These strategies coordinate the agents' action choices, e.g., using communication or by storing learned knowledge on so-called storage media in the environment. We provide a careful theoretical analysis of our approach and prove its convergence to (near-)optimal solutions, if each game is played sufficiently long. Furthermore, we show that DSL enables learning under agent-individual noised reward perceptions. Our theoretical results are supported by empirical analyses. To summarize, we provided first insights into learning and coordination in sequences of games and developed efficient approaches for the considered scenarios.