Sie sind hier

Ein Vergleich von Reinforcement Learning Algorithmen für dynamische und hochdimensionale Probleme

Thema

Reinforcement Learning (RL) ist eine Art des Machine Learnings, die ohne eine Datenbank von Beispielen auskommt. Die Beispiele werden selber durch ein ”Trial and Error” Prinzip und damit verbundenen, extrem vielen simulierten Durchläufen des gegebenen Problems, generiert [2]. RL ist eine Erweiterung von Markow Entscheidungsprozessen, die sich dadurch auszeichnet, ohne ein Modell der Umgebung und ohne eine bekannte Belohnungsfunktion einsetzbar zu sein. Außerdem sind sie in der Lage Strategie- und Wertefunktion für MEPs mit beliebig hochdimensionalen Zustandsräumen zu finden.[1]

Aufgabenstellung

In dieser Arbeit geht um den Vergleich verschiedener Reinforcement Learning Algorithmen. Diese werden für ein einfaches Spiel implementiert, getestet und verglichen. Dazu werden ein DQN Agent [3], ein auf dem REINFORCE Algorithmus [4] aufbauender Agent, ein Agent durch lineare Action-Value-Funktionsannnäherung [1] und ein einfacher Greedy Agent implementiert. Diese werden auf ihre Spielperformence, Trainingszeit, Zeit zur Entscheidungsfindung und ggf. Schwierigkeiten getestet und so empirisch miteinander Verglichen.

Literatur

[1] Richard S. Sutton, Andrew G. Barto (2016). Reinforcement Learning: An Introduction (Second Edition)

[2] Stuart Russell, Peter Norwig (2013). Artificial Intelligence: A Modern Approach (Third Edition)

[3] Koray Kavukcuoglu, Demis Hassabis (2015). Humanlevel control through deep reinforcement learning

[4] Ronald J. Williams (1992). Simple Statistical Gradient- Following Algorithms for Connectionist Reinforcement Learning

Studienart: 
master
Ausschreibungsdatum: 
2017