Der zweite Tag der Predictive Analytics World: Einbrecher, sensible Daten und was man daraus über das Data-Science-Storytelling lernen kann.
Der zweite Tag der Predictive Analytics World brachte sogar noch einmal eine deutliche Steigerung gegenüber dem ersten. Gleich der erste Vortrag war etwas Besonderes. Es ging um Predictive Policing. Der Vortragende Thomas Schweer ist ein waschechter Kriminologe, ein Experte für organisierte Kriminalität und Terrorismus. Predictive Policing allerdings ist eher etwas für die Massendelikte, und so ging es im Vortrag vor allem um Einbrüche.
Predictive Analytics World Berlin 2015
Das Near-Repeat-Phänomen
Das Muster, das hier Vorhersagen erlaubt, ist das sogenannte "Near-Repeat-Phänomen". Darunter versteht man die Tatsache, dass nach einem Einbruch eine hohe Wahrscheinlichkeit besteht, dass innerhalb der nächsten 72 Stunden in der unmittelbaren Nachbarschaft erneut eingebrochen wird. Es gibt Indizien dafür, dass diese Serien auf professionelle Einbrecherbanden zurückgehen. Allerdings ist die Aufklärungsquote bei Einbruchsdelikten mit rund 15 % sehr gering, so dass man diese Vermutung letztlich nicht verifizieren kann.
Was den Vortrag sehr interessant und kurzweilig machte, waren weniger methodische Schmankerl; der prognostische Algorithmus hinter dem vorgestellten System ist, so darf man vermuten, eher schlicht. Es waren die Einblicke in die Kriminologie des Einbruchs und in die Zusammenarbeit mit der Polizei. Man erfuhr viel über die Vorgehensweise von Profis ("nehmen nur mit, was in eine Socke passt") und die Erfolgsaussichten der Einbruchsprävention ("manchmal gibt es sogar Festnahmen"). Auch die aus dem geschäftlichen Kontext sattsam bekannten schiefen Verteilungen tauchen hier wieder auf: Man geht davon aus, dass 4 % der Täter 40 % der Einbrüche begehen. Der Vortrag war aber nicht nur wertvoll, weil er so kurzweilig war, sondern auch weil er implizit an eine wichtige Tatsache erinnerte: dass fachliche Kenntnisse ebenso wichtig sind wie statistisch-algorithmische.
Prädiktive Methoden für Lohnabrechnungsoutsourcing
Der darauffolgende Vortrag von Philip OʼBrien war ein schönes Beispiel dafür, wie ein im Umgang mit prädiktiven Methoden erfahrenes Unternehmen diese umsichtig und mit viel Fingerspitzengefühl auch in einem sehr sensiblen Bereich sinnvoll nutzen kann. Das Unternehmen ist Paychex, ein internationaler Anbieter von Lohnabrechnungsoutsourcing und verwandten Dienstleistungen, und der sensible Bereich ist ein Churnscore. Sensibel deshalb, weil es um Kündigungen nicht von Kunden, sondern von eigenen Mitarbeitern ging.
Umsicht und Fingerspitzengefühl waren als Erstes bei der Wahl der Prädiktoren gefragt. Alle Prädiktoren, die die Gefahr der Diskriminierung mit sich brachten, wurden von vornherein ausgeschlossen: Alter, Geschlecht, Nationalität etc. Eine weitere hochsensible Klasse von potentiellen Prädiktoren wurde ebenfalls von der Modellierung ausgeschlossen: alle Informationen, die mit dem Gehalt zu tun haben. Das vereinfachte zum einen die Freigabe der Rohdaten für die Nutzung im Modell. Zum anderen verhinderte es die (im Gehaltsthema immer große) Gefahr, dass das Modell als Argumentationshilfe für Eigeninteressen Einzelner missbraucht wird.
Die Modellierung selbst war eine unspektakuläre logistische Regression. Für die Nutzung im Unternehmen werden daraus lediglich fünf (und nicht wie andernorts zehn oder zwanzig) Scoreklassen gebildet, und zwar in Anlehnung an angloamerikanische Schulnoten von A (am besten, hier: niedrigste Kündigungsgefährdung) bis F (am schlechtesten, hier: höchste Kündigungsgefährdung).
Einteilung in Scoreklassen
In diesem Fall allerdings haben die Ergebnisse auf individueller Ebene die Data-Science-Abteilung nie verlassen. Verwendet wurden nur auf räumliche Organisationseinheiten aggregierte Informationen; eine weitere umsichtige Entscheidung. Philip OʼBrien hat brillant formuliert, warum es keine gute Idee gewesen wäre, neben jeden Mitarbeiternamen eine Scorestufe von A bis F zu schreiben: "We feared that people might tell themselves stories about their score." Und er hat Beispiele genannt, was für Geschichten das sein könnten: "Ich bin in Stufe A eingeordnet worden. Jetzt denkt mein Chef, dass er mich ja ohnehin sicher hat, und kümmert sich nicht mehr richtig um mich." "Ich habe ein E bekommen, aber ich will doch bleiben! Jetzt bekomme ich eine Art von Aufmerksamkeit, die ich nicht will." "Ich habe ein C. Das ist so aussageloses Mittelmaß. Jetzt sind alle anderen wichtiger: Die Loyalen mit den As und Bs, auf die man bauen kann, genau wie die Unzufriedenen mit den Es und Fs, um die man sich kümmern muss."
Storytelling als Data Scientist
Diese Auswahl von Beispielen konzentriert sich natürlich auf die problematischen Geschichten und lässt die positiveren außer Acht; dieser Fokus auf Risikovermeidung ist der Sensibilität des Themas angemessen. Noch interessanter ist aber die Tatsache, dass man an diesem Beispiel etwas darüber lernen kann, warum Storytelling ein integraler Bestandteil von Data Science ist und nicht bloß eine aufgepfropfte Verkaufsveranstaltung. Wenn nämlich nicht wir, die Data Scientists, eine Geschichte erzählen, die die Resultate in den richtigen Kontext einbettet und die Interpretation leitet, dann heißt das nicht, dass es keine Geschichte gäbe. Nein, vielmehr wird der Adressat unserer Bemühungen sich selbst eine Geschichte erzählen, wie es Philip OʼBrien so treffend formuliert hat. Das Problem ist nur, dass dieser Adressat normalerweise den Kontext nicht kennt, aus dem die Daten stammen, den Hintergrund, den man sehen muss, um zu angemessenen Interpretationen zu kommen. Er wird sich also einen Hintergrund erfinden, und leider wird dieser mehr zu tun haben mit unserem Adressaten, seinen Erfahrungen und seiner Geschichte als mit den Daten. Die Konsequenz ist, dass ein Großteil unserer Bemühungen sinnlos sein wird, weil unsere Ergebnisse gesehen, aber im falschen Kontext interpretiert werden. Diesen Bezug zum Storytelling hat Philip OʼBrien nicht explizit hergestellt, aber mit seinem spannenden Vortrag angeregt.
Dr. Michael Allgöwer bei seinem Vortrag zum Thema Customer Lifetime Value.