Bestärkendes Lernen hat den schlechten Ruf, riesige Datenmengen zu benötigen, sodass Agenten nur mit simulationsgenerierten Daten realistisch trainiert werden können, also z. B. in einem Computerspiel. In diesem Artikel gehen wir anhand eines kleinen, leicht verständlichen Beispiels der Frage nach, wie die Bayes-Statistik hier Abhilfe schaffen kann. Im zweiten Teil dieser Blog-Serie schauen wir uns an, wie das in der Praxis mit TensorFlow Probability, einem brandneuen Tool von Google, möglich ist.
Was zeichnet die Bayes-Statistik aus?
In einem aktuellen Podcast-Interview beschreibt der führende Forscher und Vertreter der Bayes-Statistik, Andrew Gelman, die Bayes-Methode folgendermaßen: „Es gibt zwei statistische Ansätze: Beim einen trifft man möglichst wenige Annahmen, beim anderen möglichst viele.“ Letzteres sei bei der Bayes-Statistik der Fall, erklärt er. Klingt erst einmal positiv, oder? Jedoch genießen Annahmen unter Data Scientists einen eher zweifelhaften Ruf, da sie einerseits zwar für die Modellierung gebraucht werden, andererseits aber auch die Fehleranfälligkeit erhöhen.
Annahmen als Modellierungstool
In der Bayes-Statistik werden Annahmen vollkommen anders bewertet: Anstatt sie zu vermeiden, nutzt man sie gezielt als Modellierungstools. Die Bayes-Modellierung kann Domänenwissen flexibel aufnehmen und so zu einem integralen Bestandteil der Modellberechnungen machen. Auf diese Weise schlägt man zwei Fliegen mit einer Klappe: Erstens kann Wissen über die Problemdomäne viel einfacher genutzt werden – und zwar auf genau dokumentierte und transparente Weise. Zweitens können Annahmen auch einfacher überprüft und bei Bedarf modifiziert werden, wenn sie Teil des Modells selbst sind. Ausführliche Prüfungen spielen in der Bayes-Methode eine entscheidende Rolle, um das Fehlerrisiko zu minimieren.
Bestärkendes Lernen – der merkwürdige Neuling
Wenn die Bayes-Methode das schwarze Schaf der Statistik ist (und manche halten es tatsächlich dafür), könnte man bestärkendes Lernen vielleicht als den merkwürdigen Neuling in den Bereichen Data Science und Machine Learning bezeichnen. Auch wenn viele der bekannten Techniken des Machine Learning zum Einsatz kommen, ist das Setting ein vollkommen anderes. Anstatt das Modell mit einer großen Datenmenge zu trainieren, zu bewerten und zu optimieren, sind die Trainingsdaten beim bestärkenden Lernen nicht vom Modell getrennt. Vielmehr muss dieses aus einer Reihe von Aktionen eine auswählen und erhält daraufhin eine Belohnung. Anschließend wählt das Modell die nächste Aktion aus, erhält die nächste Belohnung und so weiter. Dabei ist es auf die Maximierung der Belohnungen aus. Die Lerndaten sind also nicht vorgegeben, sondern werden erst durch die Interaktion des Modells mit seiner Umgebung produziert.
Bestärkendes Lernen – warum Bayes?
Die bekannteste Anwendung des bestärkenden Lernens findet sich im Gaming-Bereich. Die Niederlage der amtierenden E-Sport-Weltmeister im Computerspiel Dota gegen die Deep-Reinforcement-Agents von OpenAI hat Schlagzeilen gemacht. Auch das Computerprogramm AlphaZero von DeepMind basiert auf bestärkendem Lernen. Die Rechenkapazitäten, die dabei zum Einsatz kommen, sind immens: Insgesamt 45.000 Jahre Spielzeit haben die Agents von OpenAI im Schnelldurchlauf absolviert. Und die Bedeutung von Spielen und Simulationen für das bestärkende Lernen beschränkt sich nicht auf solche besonders öffentlichkeitswirksamen Fälle. Im OpenAI Gym, einer beliebten Umgebung für das Training von Agents, trifft man auf viele Kult-Computerspiele wie Pong, diverse Atari-Spiele, aber auch physikalische Simulationen, bei denen ein Agent beispielsweise erlernen kann, ein inverses Pendel auf einem Wagen zu balancieren. Hier zeigt sich eine interessante Parallele zur Bayes-Statistik: Beim bestärkenden Lernen nehmen wir häufig an, die Regeln der Umgebung und ihrer Interaktion so gut zu kennen, dass wir eine Simulation als Trainingsumgebung für die Agents entwickeln können. Mit anderen Worten: Bestärkendes Lernen arbeitet in der Regel mit so umfangreichen Annahmen, dass häufig rein simulierte Spielsituationen zum Einsatz kommen, die mit der „Realität“ nichts zu tun haben. Wie wäre es, wenn man die andere Methode, die auf starken Annahmen basiert – nämlich die Bayes-Statistik – nutzen würde, um bestärkendes Lernen auch auf die reale Welt anzuwenden?
Bestärkendes Lernen und die Bayes-Statistik – ein Kinderspiel
Nutzen wir diese abstrakten Ideen doch einmal, um ein konkretes Modell zu entwickeln. Dabei bleiben wir der Tradition des bestärkenden Lernens treu, indem auch wir ein Spiel verwenden. Allerdings brechen wir mit der Tradition, indem die Lernumgebung nicht simuliert wird, sondern in der Interaktion mit einem echten Menschen besteht. Da diese so einfach wie möglich sein sollte, entscheiden wir uns für das beliebte „Schere, Stein, Papier“. Laut Spieltheorie hat dieses Spiel ein einziges Gleichgewicht, bei dem beide Spieler ihre Aktionen gleichzeitig zufällig wählen. Oder einfacher ausgedrückt: Die beste Strategie besteht darin, zufällig zu entscheiden. Doch auch die Spieltheorie hat ihre Annahmen, und diese treffen selten zu, wenn menschliche Spieler beteiligt sind. Menschen sind nicht gut darin, vollkommen zufällig zu handeln. Deshalb ist es interessant, einen Agenten zu entwickeln, der lernt, die Vorlieben seines menschlichen Gegenübers auszunutzen.
TensorFlow Probability, die Bayes-Statistik in der Praxis und „Schere, Stein, Papier“
Im nächsten Teil dieser Serie werden wir …
- … unser neuestes Spielzeug auspacken: TensorFlow Probability.
- … ein Bayes-Modell entwickeln.
- … einen Ausflug in die schwarze Kunst der Mathemagie wagen.
... und uns daran gewöhnen müssen, unserem Computer in „Schere, Stein, Papier“ unterlegen zu sein.