Was ist Reinforcement Learning?
Reinforcement Learning (RL) ist ein Teilgebiet von Machine Learning. Die Idee hinter Reinforcement Learning ist, dass ein Agent (eine KI) von der Umgebung lernt, indem er mit ihr interagiert (durch Trial-and-Error) und Belohnungen (positiv oder negativ) als Feedback für die Durchführung von Aktionen erhält. Der Lernvorgang beim RL ist also ähnlich zu dem von Menschen und Tieren.
Was sind die wesentlichen Bestandteile von RL?
Im Folgenden werden die wesentlichen Bestandteile von RL und dessen Funktionsweise anhand eines Beispiels erklärt. In unserem Beispiel soll ein Roboter von einem Startpunkt A zu einem Zielpunkt B laufen.
Durch die Trial-and-Error Herangehensweise ähnelt der RL Prozess einer Schleife (siehe Abbildung). Die Wiederholung von Aktionen und den daraus resultierenden Belohnungen/Bestrafungen ermöglichen es dem Agenten (dem Programm) zu lernen, wie er mit dem Roboter effizienter vom Startpunkt A zum Zielpunkt B laufen kann.
Die wohl bekannteste Anwendung von Reinforcement Learning ist das Programm Alpha Go von DeepMind, welches es 2014 als erstes Computerprogramm schaffte, einen professionellen Go-Spieler zu besiegen. Go ist ein komplexes Strategiespiel für zwei Personen, welches ursprünglich aus China stammt. AlphaZero, die verbesserte Version von Alpha Go, konnte nicht nur den Vorgänger Alpha Go besiegen, sondern zudem für weitere Spiele generalisiert werden. So war AlphaZero in der Lage den bis dahin besten Schachcomputer (Stockfish) zu schlagen.
Quellen (übersetzt): Towards Data Science und Medium
Schaden gut. Alles gut.