Data Science & AI

Nahaufnahme von Händen auf einer Laptop-Tastatur
Hochleistungs(denk)sport mit R
Hochleistungs(denk)sport mit R

Hochleistungs(denk)sport mit R

Dieser Beitrag beschäftigt sich grundsätzlich und in sehr kurzer Form mit folgenden drei Fragen:

  • Woran denkt ein datengetriebener Mensch, wenn er Behauptungen hört?
  • Welches Tool ist für Datenanalysen praktischer: R, Python, Java, MATLAB?
  • Können Sportdisziplinen das nächste Gebiet zur Anwendung der Datenanalysen und des maschinellen Lernens sein?
Fehlende Werte in logistischer Regression
Fehlende Werte in logistischer Regression

Fehlende Werte in logistischer Regression

Die logistische Regression ist neben Entscheidungsbäumen das Arbeitspferd in der Modellierung, um das Eintreten eines Ereignisses vorherzusagen. Nun sind beide Verfahren zum Glück so ausgelegt, dass man im Grunde jede Art von Prädiktor für die Vorhersage einsetzen kann, egal ob dichotome Kategorien, mehrstufige Kategorien oder stetige Variablen auf Intervallskalenniveau.

Ein Blick in die Data-Science-Werkzeugkiste
Ein Blick in die Data-Science-Werkzeugkiste

Ein Blick in die Data-Science-Werkzeugkiste

In diesem Eintrag möchte ich gemeinsam mit Ihnen einen Blick in unsere Werkzeugkiste werfen. Das Thema bietet Stoff für mehr als einen Eintrag, und wir werden in diesem Blog immer mal wieder darauf zurückkommen.

Das Monty-Hall-Dilemma/Ziegenproblem in 10 Python-Zeilen
Das Monty-Hall-Dilemma/Ziegenproblem in 10 Python-Zeilen

Das Monty-Hall-Dilemma/Ziegenproblem in 10 Python-Zeilen

Hintergrund zum Dilemma

So manch einer erinnert sich an die Spielshow "Geh aufs Ganze" aus den 90ern, in der Kandidaten sich für eines von drei Toren entscheiden mussten. Hinter einem Tor war stets der Preis versteckt und hinter den anderen Toren waren Nieten in Form des Zonk, bzw. in den USA bei Moderator Monty Hall waren es Ziegen. Der Kandidat wählt zu Beginn immer ein Tor aus, hinter dem er den Preis vermutet. Der Moderator kann anschließend versuchen, ihn auf andere Tore mit Geldangeboten umzustimmen. Er kann auch Tore öffnen, um die Spannung zu erhöhen.

Recommender Systems - Teil 1: Motivation & Grundlage
Recommender Systems - Teil 1: Motivation & Grundlage

Recommender Systems - Teil 1: Motivation & Grundlage

Dieser Blogbeitrag beantwortet zwei Fragebereiche:

  1. Für wen ist ein Recommendation System relevant? Warum?
  2. Welche grundsätzlichen Varianten gibt es? Wie aufwändig ist eine dementsprechende Implementierung?
R Tipps und Tricks - Teil 1
R Tipps und Tricks - Teil 1

R Tipps und Tricks - Teil 1

R, der Open-Source-Allrounder mit schwerem Einstieg

Vor etwa drei Jahren bin ich von kommerziellen Statistiklösungen, wie SPSS, auf R umgestiegen. Mittlerweile kann ich mit Überzeugung sagen, dass ich erstmal kein anderes Tool mehr für Advanced Analytics brauche. Vor allem in Verbindung mit der IDE "R-Studio" hat die Software einen Reifegrad erreicht, um sie bedenkenlos in großen Data-Science-Projekten einzusetzen.

Man braucht sich allerdings nicht vormachen, dass man R einfach installiert und loslegt. Die Lernkurve ist vergleichsweise steil und es gibt nicht nur in Bezug auf die verschiedenen Pakete viele unterschiedliche Wege, dasselbe zu tun. Nicht selten hab ich mich geärgert, dass ich mitten im Auswerten plötzlich über einen banalen Schritt gestolpert bin, dessen Umsetzung ich für R erst recherchieren musste. Ich möchte daher in diesem und hoffentlich vielen folgenden Teilen Tipps und Tricks für R aufgreifen, die ich gerne schon früher als Einsteiger gekannt hätte.

Ein Korb voller Schlangen: Python Module für Data Science
Ein Korb voller Schlangen: Python Module für Data Science

Ein Korb voller Schlangen: Python Module für Data Science

Wer meine früheren Blogeinträge gesehen hat, der weiß, dass ich sowohl ein großer Fan von R als auch von Python in der täglichen Arbeit bin.

So mächtig R auch im Funktionsumfang für Datenanalyse und Modellierung ist, so schnell wird der Elan beim "number crunching" auch gedämpft, wenn der Arbeitsspeicher auf Oberkante läuft.

Eine schöne Serverinstallation mit viel Blech (z. B. 96 Gig-RAM) wirkt dabei Wunder.

Da diese Option nicht immer zur Verfügung steht, habe ich aus der Not eine Tugend gemacht und mich der performanteren Alternative, nämlich den Python-basierten R-Alternativen zugewandt, zumal ich eh schon seit langem Python für ETLs und Datenaufbereitungen einsetze.

Boosting für den naiven Bayes-Klassifikator
Boosting für den naiven Bayes-Klassifikator

Boosting für den naiven Bayes-Klassifikator

Es gibt viele Bereiche, in denen sich die Neurowissenschaft und das maschinelle Lernen überlappen. Einer davon ist das Kombinieren des Lernens während mehrerer Lernepisoden mit kleinen Erfolgen, um am Ende ein daraus verschmolzenes, stärkeres, gelerntes Modell für eine bestimmte Aufgabe zu nutzen. Dieser Vorgang wird im maschinellen Lernen als "Boosting" (auf Deutsch "Verstärken") bezeichnet. Gerade in der IT-Branche ist das Entwickeln von Lösungen dieser Art ein sehr interessantes Thema, weshalb nachstehend eine kurze Einführung in das maschinelle Lernen erfolgen soll, die die Grundideen sowie die Anwendung des naiven Bayes-Klassifikators in R darstellt.

Bestärkendes Lernen, Bayes-Statistik und TensorFlow Probability: ein Kinderspiel - Teil 1
Bestärkendes Lernen, Bayes-Statistik und TensorFlow Probability: ein Kinderspiel - Teil 1

Bestärkendes Lernen, Bayes-Statistik und TensorFlow Probability: ein Kinderspiel - Teil 1

Bestärkendes Lernen hat den schlechten Ruf, riesige Datenmengen zu benötigen, sodass Agenten nur mit simulationsgenerierten Daten realistisch trainiert werden können, also z. B. in einem Computerspiel. In diesem Artikel gehen wir anhand eines kleinen, leicht verständlichen Beispiels der Frage nach, wie die Bayes-Statistik hier Abhilfe schaffen kann. Im zweiten Teil dieser Blog-Serie schauen wir uns an, wie das in der Praxis mit TensorFlow Probability, einem brandneuen Tool von Google, möglich ist.