Die Digitalisierung ist in meiner kleinen Familie weiter als in vielen Unternehmen. Wir organisieren uns auf Threema und synchronisieren die Einkaufsliste per Wunderlist. Lediglich die Wunderwelt der Predictive Analytics haben wir noch nicht genutzt – bis jetzt. Als sich meine Familie kürzlich um einen sehr süßen und sehr kleinen Menschen vergrößert hat, habe ich meinen Spieltrieb während der Elternzeit auf ein Vorhersagemodell gelenkt, das ein häufig auftretendes Problem frischgebackener Eltern löst.
Nie wieder die falsche Kleidergröße für den Familienzuwachs kaufen
Die kleinen Kerlchen wachsen nämlich so schnell, dass man nie genau weiß, welche Kleidergröße sie in ein paar Monaten haben werden. Man sieht auf dem Flohmarkt einen tollen Schneeanzug, aber dann dauert es doch bis zum Hochsommer, bis das Kind hineingewachsen ist. Dumm gelaufen. Und eigentlich ganz unnötig. Denn es gibt gute frei zugängliche Daten, um ziemlich genau zu bestimmen, welche Kleidergröße die Kleinen wann haben werden.
Die Wachstumskurven bei Jungen und Mädchen
Wer kleine Kinder hat, kennt von den ersten Arztbesuchen an die Wachstumskurven, die Körpergrößen und Gewicht der Kinder in 10-Prozent-Schritte (Perzentile) einordnen. Sie ermöglichen Aussagen wie „40% der Jungen haben eine kleinere Geburtsgröße als unserer.“ (oder entsprechend für Mädchen; die Trennung ist nötig, weil Jungen und Mädchen einfach unterschiedlich schnell wachsen). Wer diese Kurven nicht kennt, findet hier ein Beispiel.
Als Data Scientist sehe ich darin auch ein zuverlässiges Prognosemodell für die Körpergröße: Ein Kind, das zum Beispiel mit einer Körpergröße geboren ist, die dem 40%-Perzentil entspricht, wird meistens auch im weiteren Verlauf seines Wachstums eine Körpergröße haben, die größer ist als diejenige von 40% der Kinder gleichen Geschlechts.
Mit Data Science die Kleidergrößen vorhersagen - so geht's
Die Perzentilkurven kann man also zur Vorhersage nutzen. Das Rezept ist einfach: Man rechnet aus, welchem Perzentil die Körpergröße des Kindes bei der Geburt entspricht. Dabei rechnet man nicht direkt einen Prozentwert aus, sondern einen sogenannten Z-Score, der dem Prozentwert entspricht, mit dem sich aber anschließend besser rechnen lässt. Dafür braucht man die schönen Kurven nicht nur als Bild, sondern auch als Zahlenwerte. Dankenswerterweise hat das amerikanische Center for Disease Control entsprechende Daten ins Netz gestellt.
Im nächsten Schritt rechnet man für jeden Lebensmonat des Kindes aus, welcher Körpergröße dieser Z-Score entspricht. Anschließend hat man noch ein wenig Datumsrechnerei, um die Kalenderdaten festzustellen, zu denen der Lebensmonat anfängt und aufhört (wir rechnen der Einfachheit halber übrigens mit Lebensmonaten, die einheitlich 30 Tage lang sind), und fertig ist die Prognose. Ach ja, am Schluss muss man natürlich die prognostizierte Körpergröße noch in eine Kleidergröße umrechnen. Dabei ist es gut, zu wissen, dass die Kindergrößen in Deutschland immer das obere Ende der Körpergrößen angeben, für die die Kleidergröße passt. Ein Strampler in Größe 62 passt also Kindern von 56 cm (das ist die nächstkleinere Größe) bis 62 cm Körpergröße.
Um die Prognose allerdings sinnvoll zu nutzen, auch für andere Leute, die Python vielleicht nur als Würgeschlange kennen, muss man noch ein wenig Arbeit investieren. In diesem Fall war das eine gute Gelegenheit, mich weiter in Vega einzuarbeiten. Für die, die Vega noch nicht kennen: Meiner bescheidenen Meinung nach ist es das kommende Framework für die Visualisierung im Bereich Data Science und darüber hinaus. Vergesst ggplot, matplotlib und Bokeh, Vega ist das kommende Ding. JavaScript-basierte Visualisierungen lassen sich damit einfach in JSON konfigurieren – und neben der eigentlichen Visualisierung bringt das Framework auch Funktionalitäten für Benutzerinteraktion und Datenaufbereitung mit.
Für den Moment nur so viel: Man kann das ganze Vorhersagemodell rein in Vega realisieren.
Das Ergebnis findet ihr hier!*
Viel Spaß damit – und mit euren Kindern!
P.S.: Hier geht's zum vollständigen Interview mit patschehand.de
*Noch mehr Spaß am Kleidergrößenrechner habt ihr mit allen Browsern außer dem Internet Explorer ;)