Data Science ist die Kunst, das Signal vom Rauschen zu trennen. Daher gehe ich als Data Scientist gern auf Konferenzen, deren Programm von Menschen zusammengestellt wurde, die diese Kunst ebenfalls beherrschen: keine Sales Pitches und kein inhaltsfreies Buzzword Bingo bitte, lieber detailreiche, ehrliche, erfahrungsgesättigte Vorträge. Bei der Predictive Analytics World ist das regelmäßig zu finden – diesmal zu Tensorflow Probability und anderen spannenden Themen.
Expertenwissen und Entropie
Einen denkanstoßreichen Vortrag gab’s von Dominik Ballreich zur Einbeziehung von Expertenwissen ins Forecasting von Zeitreihen. In einem bayesianischen Setting zeigte er, wie sich Expertenwissen in modellbasierte Forecasts sinnvoll integrieren lässt. Die relative Entropie (besser bekannt als Kullback-Leibler-Divergenz) war dabei das Werkzeug, das den modellbasieren Rohforecast so gut wie möglich dem Expertenwissen anglich. Der Vortrag war sehr auf die mathematischen Details fokussiert, die auf einem beeindruckenden Niveau behandelt wurden, Kalman- und Partikelfilter inklusive. Eher am Rande kamen auch die anderen fundamentalen Probleme vor, die sich immer stellen, wenn man Expertenwissen nutzen will: Wie gewichte ich die Zuverlässigkeit dieses Wissens? Die vorgeschlagene Lösung, dem Experten zu vertrauen hinsichtlich der Zuverlässigkeit seines Wissens, wird oft nicht ausreichen. Auch die noch fundamentalere Frage, wie man denn die oft eher schwammige Rohform, in der Experten ihr Wissen äußern, in eine Formalisierung übersetzt, mit der man Bayesianische Statistik betreiben kann, stand nicht im Mittelpunkt des Vortrags. Der vorgestellte Ansatz ist jedoch so flexibel, dass er verschiedene Möglichkeiten der Formalisierung möglich macht. Der mathematische Anteil der Arbeit scheint mit Bravour erledigt, jetzt braucht es noch gute Ideen für die Schnittstellen in den nichtmathematischen Teil der Welt.
Dr. Michael Allgöwer, Dr. Sebastian Petry und Max Kurthen auf der Predictive Analytics World 2019
Akute Dockerisierung
Auch der Vortrag von Benedikt Mangold hatte einen technischen Fokus, allerdings nicht so sehr auf mathematische Techniken. Vielmehr zeigte er Möglichkeiten, die Docker, Rest-APIs und Co. bieten, um Arbeitsergebnisse aus Data-Science-PoCs so zu konservieren, dass man sie jederzeit benutzen und ihre Wiederverwertbarkeit für andere Projekte ausprobieren kann. Die vorgestellte Lösung wird so nur in wenigen Unternehmen sinnvoll sein, weil der technische Aufwand relativ hoch ist und die Hoffnung auf eine Übernahme von Arbeitsergebnissen aus vorangegangenen PoCs sich nur in einem Unternehmen erfüllen wird, in dem relativ viele Teams auf sehr ähnlichen Daten arbeiten. Trotzdem ist sie als Anstoß auch dort interessant, wo die Rahmenbedingungen andere sind. Das zeigte auch die Diskussion im Anschluss an den Vortrag, die sich mit dem Aufwand-Nutzen-Verhältnis von Docker und Rest-APIs sowie möglichen Alternativen intensiv auseinandersetzte.
Tensorflow Probability
Meinen Lieblingsvortrag an diesem Tag habe ich mir für den Schluss des Blogbeitrags aufgehoben. Sigrid Keydana setzte sich mit der Frage auseinander, wie man Tensorflow Probability einsetzen kann, um die Unsicherheit von Prognosen zu quantifizieren, die auf neuronalen Netzen basieren. Ich habe mich selbst auch schon in einem zweiteiligen Blogbeitrag mit Tensorflow Probability auseinandergesetzt. Der Vortrag von Sigrid Keydana war thematisch komplementär: während ich Tensorflow Probability als Werkzeug für Bayesianische Inferenz benutzt habe, ohne dabei neuronale Netze einzubeziehen, ging es in ihrem Vortrag darum, wie Tensorflow Probability eingesetzt werden kann, um Bayesianische Statistik und neuronale Netze sinnvoll zu verbinden und insbesondere neuronale Modelle, die nur Punktschätzer erzeugen, um eine Quantifizierung der Prognoseunsicherheit zu bereichern. Sie stellte dazu mehrere Ansätze vor und verband die statistisch-konzeptionellen Aspekte mit der technischen Umsetzung in Tensorflow Probability. Überraschend war dabei für mich die Einfachheit, mit der die technische Umsetzung möglich ist. Der konzeptionelle Teil dieser Arbeit ist weniger simpel und profitiert sehr von Forschungsergebnissen der letzten Jahre, die der Vortrag in einem wundervoll klaren Überblick behandelte. Allen, die jetzt bedauern, nicht dabei gewesen zu sein, kann ich Sigrid Keydanas Beiträge im Tensorflow-Blog von RStudio empfehlen. Sie gehören zu dem besten Material, das zu Tensorflow Probability im Moment verfügbar ist – und zwar unabhängig davon, ob man R oder Python bevorzugt.
Soweit meine Eindrücke vom ersten Tag der Predictive Analytics World 2019. Morgen wird mein Kollege Maximilian Kurthen vom zweiten Tag berichten.