Bestärkendes Lernen – der merkwürdige Neuling
Wenn die Bayes-Methode das schwarze Schaf der Statistik ist (und manche halten es tatsächlich dafür), könnte man bestärkendes Lernen vielleicht als den merkwürdigen Neuling in den Bereichen Data Science und Machine Learning bezeichnen. Auch wenn viele der bekannten Techniken des Machine Learning zum Einsatz kommen, ist das Setting ein vollkommen anderes. Anstatt das Modell mit einer großen Datenmenge zu trainieren, zu bewerten und zu optimieren, sind die Trainingsdaten beim bestärkenden Lernen nicht vom Modell getrennt. Vielmehr muss dieses aus einer Reihe von Aktionen eine auswählen und erhält daraufhin eine Belohnung. Anschließend wählt das Modell die nächste Aktion aus, erhält die nächste Belohnung und so weiter. Dabei ist es auf die Maximierung der Belohnungen aus. Die Lerndaten sind also nicht vorgegeben, sondern werden erst durch die Interaktion des Modells mit seiner Umgebung produziert.
Bestärkendes Lernen – warum Bayes?
Die bekannteste Anwendung des bestärkenden Lernens findet sich im Gaming-Bereich. Die Niederlage der amtierenden E-Sport-Weltmeister im Computerspiel Dota gegen die Deep-Reinforcement-Agents von OpenAI hat Schlagzeilen gemacht. Auch das Computerprogramm AlphaZero von DeepMind basiert auf bestärkendem Lernen. Die Rechenkapazitäten, die dabei zum Einsatz kommen, sind immens: Insgesamt 45.000 Jahre Spielzeit haben die Agents von OpenAI im Schnelldurchlauf absolviert. Und die Bedeutung von Spielen und Simulationen für das bestärkende Lernen beschränkt sich nicht auf solche besonders öffentlichkeitswirksamen Fälle. Im OpenAI Gym, einer beliebten Umgebung für das Training von Agents, trifft man auf viele Kult-Computerspiele wie Pong, diverse Atari-Spiele, aber auch physikalische Simulationen, bei denen ein Agent beispielsweise erlernen kann, ein inverses Pendel auf einem Wagen zu balancieren. Hier zeigt sich eine interessante Parallele zur Bayes-Statistik: Beim bestärkenden Lernen nehmen wir häufig an, die Regeln der Umgebung und ihrer Interaktion so gut zu kennen, dass wir eine Simulation als Trainingsumgebung für die Agents entwickeln können. Mit anderen Worten: Bestärkendes Lernen arbeitet in der Regel mit so umfangreichen Annahmen, dass häufig rein simulierte Spielsituationen zum Einsatz kommen, die mit der „Realität“ nichts zu tun haben. Wie wäre es, wenn man die andere Methode, die auf starken Annahmen basiert – nämlich die Bayes-Statistik – nutzen würde, um bestärkendes Lernen auch auf die reale Welt anzuwenden?
Bestärkendes Lernen und die Bayes-Statistik – ein Kinderspiel
Nutzen wir diese abstrakten Ideen doch einmal, um ein konkretes Modell zu entwickeln. Dabei bleiben wir der Tradition des bestärkenden Lernens treu, indem auch wir ein Spiel verwenden. Allerdings brechen wir mit der Tradition, indem die Lernumgebung nicht simuliert wird, sondern in der Interaktion mit einem echten Menschen besteht. Da diese so einfach wie möglich sein sollte, entscheiden wir uns für das beliebte „Schere, Stein, Papier“. Laut Spieltheorie hat dieses Spiel ein einziges Gleichgewicht, bei dem beide Spieler ihre Aktionen gleichzeitig zufällig wählen. Oder einfacher ausgedrückt: Die beste Strategie besteht darin, zufällig zu entscheiden. Doch auch die Spieltheorie hat ihre Annahmen, und diese treffen selten zu, wenn menschliche Spieler beteiligt sind. Menschen sind nicht gut darin, vollkommen zufällig zu handeln. Deshalb ist es interessant, einen Agenten zu entwickeln, der lernt, die Vorlieben seines menschlichen Gegenübers auszunutzen.