Wie funktioniert die Produktivsetzung von Data Science Use Cases am besten? Welche Prozesse und welche Technik brauche ich und wie spielt beides zusammen? Diese und ähnliche Fragen sind im Moment in der Data Science Community viel diskutiert und sie dominierten auch den zweiten Tag der Predictive Analytics World 2019.
Der erste Tag der PAW Berlin 2019 ging mit einer Party im Berliner Nachtclub „Prince Charles“ zu Ende. Die Location in Kreuzberg mit unverputzten Betonwänden ist so berlinerisch, wie sie nur sein kann. Früher war der jetzige Club einmal ein Swimming Pool für die Mitarbeiter des Klavierhauses „Bechstein“. Der zweite Tag der PAW kündigte sich dann mit besonders technischen Themen an, wie beispielsweise einem eigenen Track zum Thema „Data Operations & Engineering“.
Vor den „Deep-Dive“-Vorträgen war jedoch zuerst die Keynote von Dr. Frank Block (Roche Diagnostics) an der Reihe. Der Vortrag „From Exploration to Productionisation” nahm sich des Themas an, Data Science Use Cases in produktiv robusten Applikationen zu entwickeln. Bei Roche Diagnostics gliedert sich der Data Science Lifecycle in drei Abschnitte:
- Im ersten Abschnitt, “Create Awareness”, werden Ideen gesammelt und die Potenziale analysiert.
- Der “Proof Of Value (PoV)“ ist die eigentliche Data-Science-Arbeit. Nach dem CRISP-DM Modell wird ein Projekt erarbeitet und der Mehrwert bewiesen.
- Im letzten Abschnitt,“Productionise“, erfolgt die Inbetriebnahme des Modells – inklusive UI und User Support.
Die Projekte müssen sich in verschiedenen “Gates” beweisen. Diese funktionieren wie ein Filter, der sicherstellt, dass nur Projekte mit erwiesenem Mehrwert die Deployment- / Maintenance-Phase erreichen. Auf diese Weise kann eine Vielzahl von experimentellen Projekten zumindest getestet werden. Ein Konzept ganz im Sinne von „Fail fast, fail often“.
Erfahrungen zum Data Science: Development Lifecycle bei der GfK
René Traue und Christian Lindenlaub (GfK) berichteten von Ansätzen zur Produktivsetzung in einem ganz anderen Unternehmensumfeld. Der Titel war provokant gewählt: „Data Science Development Lifecycle: Everyone Talks About It, Nobody Really Knows How to Do It and Everyone Thinks Everyone Else Is Doing It”. Bei der GfK ist Scrum als Projektmanagement-Methodik nun endgültig in der Data-Science-Welt angekommen. Acceptance Criteria und Definitions of Done sind feste Bestandteile der Herangehensweise an neue Projekte. In einem iterativen Prozess mit Sprint Plannings, Daily Standups und Retrospectives nähert man sich der „Product Vision“ an. Auch hier muss der Proof of Value schließlich erbracht werden. Ist das passiert, wird das Projekt dem Engineering Backlog übergeben. Nach der Implementierung steht das Thema Quality Assurance. Definierte QPIs (Quality Performance Indicators) werden genutzt, um zu entscheiden, ob z.B. ein prädiktives Modell überhaupt eine Vorhersage treffen soll. Am Ende kann ein „Scaling Team“ stehen, das für die entsprechende Skalierung oder auch eine Nutzung des Modells in anderen Tasks übernimmt.
René Traue und Christian Lindenlaub (GfK)
Data Lab to Data Ops
“From Data Lab to Data Ops” war eines der Schlagworte im Vortrag “From Sandbox to Production – How to Deploy Machine Learning Models”. Das Worst-Case-Szenario ist für Michael Oettinger (Freelancer) die komplett getrennte Entwicklung von Data Science und Development – von unterschiedlichen Verantwortlichen und mit verschiedenen Programmiersprachen. Von diesem Worst-Case-Szenario weg führen mehrere Wege:
- In einem agilen Ansatz können Data Science und Development vernetzt arbeiten und durch Feedback Loops aufeinander abgestimmt arbeiten.
- Die Nutzung von Web Services ist eine weitere gute Möglichkeit, eine Brücke zu schlagen. Für Python-Projekte schafft Flask eine Schnittstelle via HTTP. Das Deployment über Docker (evtl. in Verbindung mit Kubernetes) ermöglicht die reibungslose Inbetriebnahme und Skalierung.
- Als All-In-One-Place-Lösung stehen dann immer noch die Cloud-Anbieter zur Verfügung: AWS, Azure und die Google Cloud Platform stellen komplette Pipelines bis hin zum Deployment bereit. Databricks ist ein Spezialfall und durch die Integration von Spark oft eine spannende Alternative.
Die Vorstellung von Beispielprojekten wie Fraud Detection, Credit Scoring oder Sales Forecasting rundetet den Vortrag ab – inklusive Nutzung von KNIME und KNIME Server.
Am zweiten Tag der Predictive Analytics World konnten wir sehen, wie vielfältig die Möglichkeiten zur Produktivsetzung von Data-Science-Projekten gerade sind. Eine einheitliche Methodik gibt es (noch?) nicht, auch ein Best Practice ist noch weit weg. Es war deshalb spannend zu sehen, wie sich verschiedene Ansätze in Umgebungen mit unterschiedlichen Rahmenbedingungen bewähren.