Das Erwachen der künstlichen Intelligenz
Die Predictive Analytics World ist die Konferenz im deutschsprachigen Raum, wenn es um Data Science und Predictive Analytics geht. Das diesjährige Motto „Das Erwachen der künstlichen Intelligenz“ weckt hohe Erwartungen; wenn man „künstliche Intelligenz“ nicht nur als Marketingwort für „Data Science“ verstehen will, kann damit nur ein Themenschwerpunkt im Bereich tiefe neuronale Netze gemeint sein. Indes, ein Themenschwerpunkt ist es noch nicht, was sich dazu im Programm findet – von den 18 Vorträgen am ersten Tag beschäftigen sich bei großzügiger Zählung drei schwerpunktmäßig mit tiefen neuronalen Netzen.
Deep Recurrent Networks - das Programmhighlight am ersten Tag
Einer davon ragte allerdings heraus, nämlich der Vortrag von Dr. Ralph Grothmann: „Deep Recurrent Networks: Theory and Industrial Applications at Siemens“. Das Interesse war groß. Die rund 35 Sitzplätze in dem Raum waren bis auf den letzten Platz belegt, etwa zwanzig Zuhörer folgten dem Vortrag stehend, und weitere wurden wegen Überfüllung an der Tür abgewiesen. Der konventionelle Vortragseinstieg mit sattsam strapazierten Unterscheidungen von „Predictive vs. Prescriptive Analytics“ wurde bald gefolgt von sehr viel spannenderen Inhalten. Dr. Grothmann zeigte sehr anspruchsvolle Anwendungen vor allem für industrielle Großanlagen, aber auch z. B. die Vorhersage von Türversagen in ICEs. Es waren Anwendungen, die eher für klassische Data-Science-Methodik prädestiniert waren, wenn man mal davon absieht, dass man bei einigen wohl bezweifeln muss, dass man sie mit „klassischen Methoden“ (Ensemblemodelle, Support Vector Machines, statistische Regressionsansätze, Zeitreihenanalyse etc.) noch mit vertretbarem Aufwand hätte lösen können.
Aber noch interessanter als die Anwendungen war die Methodik, mit der sie angegangen wurden. Anders als viele Protagonisten im Deep-Learning-Umfeld, die oft nach dem Motto verfahren: „Was schert mich die Businesslogik, wenn du mir genug Daten gibst“, betonte Dr. Grothmann die Wichtigkeit des Verständnisses der meist ingenieurwissenschaftlich-physikalischen Logik der Aufgabe. Sein Ansatz folgt der Idee, das neuronale Netz eng anhand der Anwendungslogik zu konstruieren. Die dabei entstehenden Netze sind typischerweise (je nach Anzahl der Eingangsvariablen) deutlich kleiner als die oft riesigen Netze, die z. B. in der Bildverarbeitung verwendet werden, eher hunderte bis tausende Knoten, nicht die hunderttausende, die man in typischeren Deep-Learning-Anwendungen sieht.
Der Vortrag wurde von einer sehr interessanten Frage-Antwort-Session abgeschlossen, die unter anderem auch sehr pointierte Einsichten zur Vermeidung von Overfitting lieferte („Regularisation is the old school answer!“).
Fazit - Tag 1
Unter dem Strich hat sich durch diesen Vortrag allein schon die Anreise nach Berlin gelohnt. Den Ansatz, Wissen über das Anwendungsproblem nicht zugunsten von Bergen von Trainingsdaten zu ignorieren, sondern in den Aufbau der zu verwendenden neuronalen Netze einzubeziehen, halte ich für sehr sinnvoll und erfolgversprechend, wenn man Deep Learning in die klassische Predictive Analytics bringen möchte, und ich freue mich darauf, ihn in eigenen Projekten zu erproben.