Die Vielfalt der in sechs Tracks und über dutzende von Sessions abgedeckten Themen bei der PAW 2018 in Berlin kann nur mit einem klaren Fokus sinnvoll zusammengefasst werden. Deshalb konzentriere ich mich hier auf drei Präsentationen, die von verschiedenen Seiten eine Frage beleuchten, die Dean Abbot in seiner heutigen Keynote gestellt hat: Ist es möglich, fertige Rezepte für Data Science zu definieren?
Dean Abbot selbst bezog sich dabei hauptsächlich auf das Verhältnis von Datenaufbereitung und der späteren Modellierung. Es wäre selbstverständlich hocheffizient, eine einzige Datenpipeline zu erstellen und deren Ergebnis zum Training verschiedenster Modelle nutzen zu können. Aus diesen Modellen würden wir dann das beste auswählen und es benutzen. Klingt verlockend? Ist es auch! Allerdings gibt es zahlreiche Unterschiede darin, wie Algorithmen etwa mit unterschiedlichen Skalenniveaus oder fehlenden Werten umgehen, um nur zwei seiner fünf Beispiele zu nennen. Natürlich gibt es dafür Richtlinien und Best Practices. Trotzdem betonte Dean Abbot, dass es keine allgemeinen Rezepte gibt, die einfach blind angewandt werden sollten.
Hans Werner Zimmermann ergänzte diese Perspektive mit einer anregenden Präsentation über das Erstellen von Vorhersagemodellen. Als Resultat seiner langjährigen Erfahrung war es ihm möglich, theoretische Überlegungen mit praktischen Anwendungen zu kombinieren. Die Liste an Herausforderungen in diesem Bereich ist äußerst umfangreich. Um zwei Punkte herauszustellen:
- Ein erfolgreiches Modell muss sowohl externe Einflüsse als auch die Eigendynamik eines komplexen Systems berücksichtigen können.
- Um ein Ergebnis vorherzusagen, muss man die kausalen Ursachen entdecken können.
Aus Zimmermanns Perspektive hilft ein Mehr an Daten hier nicht weiter. Stattdessen argumentierte er für theoretische Überlegungen, kombiniert mit tiefem Fachwissen.
Wie das Anwendungsgebiet die besonderen Herausforderungen eines Machine-Learning-Problems formt, zeigte zudem Malte Pietsch im Bereich des NLP (Natural Language Processing). Sein Vortrag konzentrierte sich auf das Problem der sogenannten Named Entity Recognition bzw. NER. In den letzten Jahren gab es in diesem Bereich beeindruckende Fortschritte.
Leider gibt es dort immer noch einen ärgerlichen Trade-off. In den Bereichen, in denen am meisten Text verfügbar ist, fehlen die Business Use Cases. Dort wo die Use Cases zu finden sind, fehlt allerdings eine ausreichende Textmenge. In jüngerer Vergangenheit wurden Deep-Learning-Architekturen um verschiedene Embedding-Ansätze erweitert, um dieses Problem anzugehen. Malte Pietsch verwies beispielsweise auf das BERT-Projekt von Google, das vor kurzem öffentlich verfügbar gemacht wurde. Das dazugehörige Github-Repository hat innerhalb von nur zwei Wochen fast 8.000 Sterne gesammelt!
Für mich nehme ich vor allem drei Beobachtungen mit:
- Eine klare Problemdefinition und tiefes Domänenwissen sind unverzichtbar, um ein gegebenes Machine-Learning-Problem bestmöglich anzugehen. Best Practices sind keine fertigen Rezepte, sondern Richtlinien.
- Der Wert von Feature Engineering sollte niemals unterschätzt werden.
- Data Science und AI sind ein sich rasant entwickelndes und wachsendes Gebiet. Das gilt besonders für NLP.
Wir freuen uns bereits auf die Predictive Analytics World 2019!