Zum Hauptinhalt springen

Uplift-Modeling als Zusatz zum klassischen Response-Modeling

Uplift-Modeling kann Kampagnenmanager bei der Kampagnensteuerung und -planung unterstützen, da es das klassische Response-Modell des Kampagnenscorings ergänzt.

Uplift-Modeling geht von der Grundidee aus, dass man die Kampagnenreagierer in zwei Gruppen einteilt: diejenigen, die auch ohne die Kampagne reagiert hätten, und die, die das ohne die Kampagne nicht getan hätten. Während klassisches Scoring unterschiedslos auf beide Gruppen abzielt, versucht das Uplift-Scoring, exklusiv nur die zweite Gruppe zu isolieren und dabei die erste möglichst zu ignorieren. Zu diesem Zweck werden die Responseinformationen aus der Kontrollgruppe verwendet, die im klassischen Kampagnenscoring ungenutzt bleiben.

Beispielhaft zeigt sich das in der Grafik, die den Vergleich zweier Kundengruppen darstellt (hier KMU- vs. private Kunden) und deren Reaktion auf eine Kampagne, z. B. ein Mailing. Während das Mailing bei den KMU-Kunden nur zu einem geringen Anstieg der Take-Rate geführt hat, funktioniert es bei den Privatkunden sehr viel besser.

Genau darum geht es: gute Prädiktoren, nicht nur für die Prognose, sondern exklusiv für den Uplift zu finden!

 

reaktion-kundengruppen

 

Anwenden lässt sich das Modell in vielen Bereichen der Kampagnensteuerung, sei das Ziel nun Retention, Prevention oder Cross- bzw. Upsell.

Mögliche Ansätze des Uplift-Modelings

Es gibt für das Uplift-Modeling drei Ansätze: Der erste modelliert die Responses in beiden Gruppen unabhängig voneinander und bildet anschließend Differenzen der Reaktionswahrscheinlichkeiten. Der Uplift wird also nur indirekt modelliert und so wird folglich auch nicht nach ihm optimiert. Ergebnisse sind eher zufällig, da nicht garantiert ist, dass in beiden Modellen die gleichen Variablen selektiert werden. Der Ansatz ist also wenig ernst zu nehmen.

Alle anderen Ansätze bauen daher auf einem einheitlichen Datensatz auf, der beide Gruppen umfasst. Die Gruppenzugehörigkeit wird durch eine Indikatorvariable (0/1) modelliert.

Der zweite Ansatz benutzt Entscheidungsbäume mit einem modifizierten Splittingkriterium. Dieses Kriterium misst die Güte einer potentiellen Splitvariablen an der Unterschiedlichkeit der Verteilungen der Responsevariablen zwischen Test- und Kontrollgruppe. Die Unterschiedlichkeit wird dabei mit Hilfe einer informationstheoretischen Maßzahl gemessen, der Kullback-Leibler-Divergenz. Auch dieser Ansatz einer entscheidungsbaumbasierten Modellierung hat so, wie meist implementiert, seine Tücken: So geht dieser implizit davon aus, dass sich das Splittingkriterium bei einer Größe der Kontrollgruppe von null zu einem normalen Splittingkriterium, wie bei einer klassischen Response-Modellierung, reduziert. Formal bewiesen ist dies nicht, der Ansatz liefert jedoch in der Praxis brauchbare Ergebnisse.                                                                                    

Der dritte Ansatz benutzt logistische Regression und zielt dann auf die Interaktionseffekte der Responsevariablen mit der Indikatorvariablen für die Zugehörigkeit zur Testgruppe. Besonderer Wert wird auf die Variablenselektion gelegt: Hier wird meist die Responsevariable ersetzt durch eine besondere Verknüpfung zwischen Responsevariable und Gruppenzugehörigkeit. Diese modifizierte Zielvariable ist 1, wenn eine Response stattgefunden hat und der Datensatz zur Testgruppe gehört oder wenn keine Response stattgefunden hat und der Datensatz zur Kontrollgruppe gehört; in allen anderen Fällen ist sie 0. Dies hat den Vorteil, dass man trotz realistischer Conversion- oder Take-Rates im Bereich von 1-3 % eine je nach Kontrollgruppengröße gleichmäßigere Verteilung der Zielvariablen erreicht. Hier kommen nun gängige Variablenselektionsmethoden (Wrapper- oder Embedded-Verfahren) zum Einsatz. Das eigentliche Modell wird dann mithilfe der ursprünglich kodierten Zielvariablen geschätzt. Dies besteht aus zwei Teilen: 

 

modellformel

Anforderungen an das Uplift-Modeling

  1. Gruppengröße & Take-Rates: Trotz der Rekodierung der Zielvariablen sind die Anforderungen an Größe der Kontrollgruppe, Conversion- oder Take-Rate in Target- sowie Kontrollgruppe deutlich höher als bei einem Response-Modell.
  2. Relative Signalstärke: Meist sind die Haupteffekte so stark, dass für die Interaktion wenig Erklärungsbeitrag mehr übrig bleibt. Am Ende liefert das Uplift-Modeling dann folglich ein ähnliches Ergebnis wie das klassische Response-Modell.

Fazit 

Uplift-Modeling kann in einer Kampagnensteuerung jedoch definitiv Mehrwert generieren, denn es zeigt den "inkrementellen Unterschied", den eine Kampagne gemacht hat, und versucht dessen Herkunft zu erklären.

Dieser Ansatz sollte jedoch nur zusätzlich zu im Kampagnenkontext bekannten Instrumenten genutzt werden, um weitere Informationen zur Selektion und Steuerung zu gewinnen.

Stefan Seltmann
Dein Ansprechpartner
Stefan Seltmann
Lead Expert
Stefan liebt das Programmieren, vor allem rund um Data Engineering und Data Science, und arbeitet quasi in seinem Hobby. Gerade für Softwareentwicklung mit Python und/oder Spark punktet er als b.telligents Telefonjoker.
#CodeFirst, #TestMore, #CodeDoctor