Sie sind hier

Ein Vergleich von Reinforcement Learning Algorithmen für dynamische und hochdimensionale Probleme

Martin Schmitz

In der vorliegenden Arbeit werden verschiedene Reinforcement Learning-Algorithmen und Arten von Classifiern getestet und verglichen. Für den Vergleich werden die ausgewählten Algorithmen mit ihren jeweiligen Classifiern für ein gegebenes Problem einzeln optimiert, trainiert und später im direkten Vergleich gegenübergestellt. Das gegebene Problem ist eine Variante des klassischen Spiels "Tron" . Ein von den Regeln her Einfaches, aber trotzdem bzgl. des Zustandsraumes hochdimensionales Problem und dynamisch in der Entscheidungsfindung. Als Algorithmen werden REINFORCE mit baseline, Q-Learning, DQN und der A3C-Algorithmus ausgewählt. Als Classifier werden lineare Funktionsannäherungen und Convolutional Neural Networks verglichen. Zusätzlich wird ein Greedy-Algorithmus und ein Random-Algorithmus in den Vergleich mit einbezogen.

Obwohl die Reinforcement Learning Algorithmen den Greedy-Algorithmus nicht schlagen können, kommen sie zum Teil sehr nahe an seine Leistung heran. Die Reinforcement Algorithmen, die eine {Policy-Funktion trainieren erwirtschaften bessere Ergebnisse als welche, die eine Value-Funktion trainieren. Die linearen Funktionsannäherungsmethoden schneiden in dem gegebenen Problem überraschenderweise besser ab, als die Convolutional Neural Networks.

14.09.2017 - 10:15
B 017