Data Science & AI

Nahaufnahme von Händen auf einer Laptop-Tastatur
HOWTO: Einfaches Web Scraping mit Python
HOWTO: Einfaches Web Scraping mit Python

HOWTO: Einfaches Web Scraping mit Python

Erschlagendes Angebot im Webshop

Vor zwei Wochen wurde ich von einem oft genutzten Online-Versand, dessen Namen an ein Fluss in Südamerika erinnert, per freundlicher Info-Mail auf eine Aktion aufmerksam gemacht. Und zwar wurden mir drei Musik-CDs aus einer großen Auswahl für 15€ angeboten.

Ich erwerbe immer noch gerne, wie früher, Musik auf physischen Tonträgern und wollte mir das Angebot genauer ansehen. Nun stellte sich heraus, dass etwa 9,000 CDs offeriert wurden, und das über etwa 400 Seiten im Online-Shop. Dieser Shop bietet mir die Möglichkeit, das Angebot nach Beliebtheit oder nach Kundenbewertung zu sortieren. Wenn ich jedoch die Beliebtheit absteigend betrachte, finde ich viele Titel, die nicht mehr ganz meiner Altersklasse entsprechen. Andererseits, wenn ich nach Kundenbewertung sortiere, stellt sich heraus, dass der Shop die Bewertungen ungewichtet verarbeitet. D.h. irgendeine CD mit volkstümlichen Schlagern wird mit nur einer 5-Sterne Bewertung vor einer anderen CD mit 4.9 Sternen auf 1000 Bewertungen aufgeführt.

Hochleistungs(denk)sport mit R
Hochleistungs(denk)sport mit R

Hochleistungs(denk)sport mit R

Dieser Beitrag beschäftigt sich grundsätzlich und in sehr kurzer Form mit folgenden drei Fragen:

  • Woran denkt ein datengetriebener Mensch, wenn er Behauptungen hört?
  • Welches Tool ist für Datenanalysen praktischer: R, Python, Java, MATLAB?
  • Können Sportdisziplinen das nächste Gebiet zur Anwendung der Datenanalysen und des maschinellen Lernens sein?
Fehlende Werte in logistischer Regression
Fehlende Werte in logistischer Regression

Fehlende Werte in logistischer Regression

Die logistische Regression ist neben Entscheidungsbäumen das Arbeitspferd in der Modellierung, um das Eintreten eines Ereignisses vorherzusagen. Nun sind beide Verfahren zum Glück so ausgelegt, dass man im Grunde jede Art von Prädiktor für die Vorhersage einsetzen kann, egal ob dichotome Kategorien, mehrstufige Kategorien oder stetige Variablen auf Intervallskalenniveau.

Ein Blick in die Data-Science-Werkzeugkiste
Ein Blick in die Data-Science-Werkzeugkiste

Ein Blick in die Data-Science-Werkzeugkiste

In diesem Eintrag möchte ich gemeinsam mit Ihnen einen Blick in unsere Werkzeugkiste werfen. Das Thema bietet Stoff für mehr als einen Eintrag, und wir werden in diesem Blog immer mal wieder darauf zurückkommen.

Das Monty-Hall-Dilemma/Ziegenproblem in 10 Python-Zeilen
Das Monty-Hall-Dilemma/Ziegenproblem in 10 Python-Zeilen

Das Monty-Hall-Dilemma/Ziegenproblem in 10 Python-Zeilen

Hintergrund zum Dilemma

So manch einer erinnert sich an die Spielshow "Geh aufs Ganze" aus den 90ern, in der Kandidaten sich für eines von drei Toren entscheiden mussten. Hinter einem Tor war stets der Preis versteckt und hinter den anderen Toren waren Nieten in Form des Zonk, bzw. in den USA bei Moderator Monty Hall waren es Ziegen. Der Kandidat wählt zu Beginn immer ein Tor aus, hinter dem er den Preis vermutet. Der Moderator kann anschließend versuchen, ihn auf andere Tore mit Geldangeboten umzustimmen. Er kann auch Tore öffnen, um die Spannung zu erhöhen.

Recommendation Systems - Teil 1: Motivation & Grundlage
Recommendation Systems - Teil 1: Motivation & Grundlage

Recommendation Systems - Teil 1: Motivation & Grundlage

Dieser Blogbeitrag beantwortet zwei Fragebereiche:

  1. Für wen ist ein Recommendation System relevant? Warum?
  2. Welche grundsätzlichen Varianten gibt es? Wie aufwändig ist eine dementsprechende Implementierung?
R Tipps und Tricks - Teil 1
R Tipps und Tricks - Teil 1

R Tipps und Tricks - Teil 1

R, der Open-Source-Allrounder mit schwerem Einstieg

Vor etwa drei Jahren bin ich von kommerziellen Statistiklösungen, wie SPSS, auf R umgestiegen. Mittlerweile kann ich mit Überzeugung sagen, dass ich erstmal kein anderes Tool mehr für Advanced Analytics brauche. Vor allem in Verbindung mit der IDE "R-Studio" hat die Software einen Reifegrad erreicht, um sie bedenkenlos in großen Data-Science-Projekten einzusetzen.

Man braucht sich allerdings nicht vormachen, dass man R einfach installiert und loslegt. Die Lernkurve ist vergleichsweise steil und es gibt nicht nur in Bezug auf die verschiedenen Pakete viele unterschiedliche Wege, dasselbe zu tun. Nicht selten hab ich mich geärgert, dass ich mitten im Auswerten plötzlich über einen banalen Schritt gestolpert bin, dessen Umsetzung ich für R erst recherchieren musste. Ich möchte daher in diesem und hoffentlich vielen folgenden Teilen Tipps und Tricks für R aufgreifen, die ich gerne schon früher als Einsteiger gekannt hätte.

Ein Korb voller Schlangen: Python Module für Data Science
Ein Korb voller Schlangen: Python Module für Data Science

Ein Korb voller Schlangen: Python Module für Data Science

Wer meine früheren Blogeinträge gesehen hat, der weiß, dass ich sowohl ein großer Fan von R als auch von Python in der täglichen Arbeit bin.

So mächtig R auch im Funktionsumfang für Datenanalyse und Modellierung ist, so schnell wird der Elan beim "number crunching" auch gedämpft, wenn der Arbeitsspeicher auf Oberkante läuft.

Eine schöne Serverinstallation mit viel Blech (z. B. 96 Gig-RAM) wirkt dabei Wunder.

Da diese Option nicht immer zur Verfügung steht, habe ich aus der Not eine Tugend gemacht und mich der performanteren Alternative, nämlich den Python-basierten R-Alternativen zugewandt, zumal ich eh schon seit langem Python für ETLs und Datenaufbereitungen einsetze.

Computer Vision 101: Wie Maschinen lernen zu sehen
Computer Vision 101: Wie Maschinen lernen zu sehen

Computer Vision 101: Wie Maschinen lernen zu sehen

Ob in der Lagerung, der Produktion oder im Kundenservice – in völlig unterschiedlichen Geschäftsprozessen werden Bilder genutzt, die analysiert und bewertet werden müssen. Die manuelle Auswertung dieser Bilder ist dabei allerdings sowohl zeitaufwendig als auch fehleranfällig. Dank Computer Vision, also der maschinellen Analyse und Verarbeitung von Bildern, lassen sich derartige Prozesse automatisieren. Dabei sind Maschinen heute dank eines hohen methodischen Reifegrads in der Lage, selbst komplizierte Analysen durchzuführen.