Predictive Analytics World

Die Predictive Analytics World in Berlin ist eine kleine, aber brillante Veranstaltung. Sie ist das wahrscheinlich beste Treffen der Predictive Analytics Community in Deutschland, hochkonzentriert auf anspruchsvolle Vorträge und ein spezialisiertes Publikum. Ein passender Anlass also für den ersten Eintrag in unserem Predictive Analytics Blog.

Vorausschicken muss ich, dass mich die Predictive Analytics World jedes Mal fertigmacht. Im positiven Sinne. Es schwirren auf dieser Veranstaltung so viele Anregungen und Ideen durch die Räume, dass ich um Nachsicht bitte dafür, dass dieser Eintrag unter starkem Endorphineinfluss entsteht.

„From Smart Phones to Smart Places to Smart Profiles“

Der Höhepunkt des Vormittags war der Vortrag von Hendrik Wagenseil und Nina Weigel von der GfK zum Thema „From Smart Phones to Smart Places to Smart Profiles“. Sie berichteten über die Entwicklung eines zukünftigen Produkts der GfK, das einen Einblick geben soll in die geographischen Bewegungen von Zielgruppen, die für das Marketing interessant sind. Eine Luxusvariante von Passantenfrequenzerhebungen sozusagen. Die Grundidee besteht in der Zusammenführung von Geopositionsdaten von Mobilfunknetzbetreibern auf der einen mit Marketingprofilen auf der anderen Seite. Dass und wie das selbstverständlich datenschutzkonform geschehen muss, ist nur eines der spannenden Probleme, die angeschnitten wurden. Erleichtert wurde das vermutlich dadurch, dass es in dem Vortrag primär um US-Daten ging; aber natürlich wären vergleichbare Produkte auch in Deutschland interessant.

Mindestens ebenso hörenswert waren die methodischen Ideen zur Fusion und Qualitätssicherung der beiden sehr unterschiedlichen Datenquellen. Die potentiellen Fehlerquellen sind vielfältig, z. B. Stichprobenfehler, weil nicht jeder ein Handy bei sich trägt, beschränkte Genauigkeit der rein auf Mobilfunkzellen basierenden Lokalisierung etc. Die Ansätze zur Minimierung dieser Fehler kamen nicht von der Stange, sondern waren auf die Besonderheiten der Datenlage sorgfältig zugeschnitten. Stichprobenfehler beispielsweise wurden durch geschickten Rückgriff auf die (von Volkszählungsdaten bekannte) Demographie des Wohnorts der Handynutzer minimiert.

Dabei wurde im Vorbeigehen auch die Sensibilität der verwendeten Daten immer wieder deutlich, etwa wenn darauf hingewiesen wurde, dass sich aus lokalisierten Einbuchungsereignissen mit Zeitstempeln mit hoher Wahrscheinlichkeit auf den Wohnort zurückschließen lässt. Der geographische Ort mit einer Häufung nächtlicher Einbuchungsereignisse ist offensichtlich meist der Wohnort.

Process Mining

Einen völlig anderen Akzent setzte Prof. van der Aalst von der TU Eindhoven in seinem Vortrag über Process Mining. Wir legen in unseren Beratungsprojekten seit jeher Wert darauf, die Prozesse zu verstehen, die die Daten erzeugen, mit denen wir arbeiten. Trotzdem hat mich der Reifegrad der Methoden und Softwaretools überrascht und begeistert, die Prof. van der Aalst vorgestellt hat. Die unmittelbare Konsequenz für mich war, dass diese Tools in unser Data-Science-Toolkit aufgenommen werden. Von ersten Erfahrungen werde ich sicher demnächst in diesem Blog berichten. Das Fazit für mich aus diesem Vortrag war, dass es dort eine spezialisierte Community gibt, die Großartiges leistet, aber im Data-Science- und auch im Business-Intelligence-Umfeld weitgehend unbekannt ist.

Die Methoden, die in dieser Community entwickelt wurden, erlauben es, aus Logdaten die dahinterliegenden Prozesse automatisiert zu rekonstruieren, mit einem frei wählbaren Detailgrad. Diese tatsächlichen Prozesse – einschließlich aller inoffiziellen Abkürzungen, Fehler und Besonderheiten – lassen sich dann als Grundlage nutzen, um sie entweder mit „offiziellen“ Prozessen zu vergleichen oder diese erst zu entwickeln. Sie bilden auch eine solide Grundlage für Vorhersagen – eine wertvolle Ergänzung für Predictive Analytics, die durch keine der Standardmethoden aus Statistik oder Machine Learning ersetzbar ist, sich damit aber wunderbar kombinieren lässt. Der Anwendungsbereich dieser Methoden ist enorm und umfasst längst nicht nur die industriellen Prozesse, an die man vielleicht als Erstes denkt. Auch und gerade Prozesse im Bereich Kundenservice sind hierfür ein dankbares Anwendungsfeld, aber auch beispielsweise bei Prozessen in Krankenhäusern haben sich diese Methoden bewährt.

Neben diesen Highlights gab es natürlich weitere spannende Vorträge und konzentrierten Austausch in den Pausen. Morgen gehtʼs weiter mit dem zweiten Teil der Konferenz und dieses Eintrags ...