Data Science & AI

Nahaufnahme von Händen auf einer Laptop-Tastatur
Best Practice für SQL-Statements in Python
Best Practice für SQL-Statements in Python

Best Practice für SQL-Statements in Python

Best Practice für SQL-Statements in Python

Dank eines verpflichtenden Interfaces für Datenbank-Connectors, der "Python Database API Specification v2.0, PEP249", wurden alle aktuellen Connectors so entwickelt, dass Datenbankverbindungen und die SQLs für Datenabrufe und Datentransaktionen über dieselben Befehle gestartet werden können. Mehr oder weniger erhält man auch überall im gleichen Format Ergebnisse zurück. In diesem Punkt gibt es gefühlt noch die größten Abweichungen von der geforderten Vereinheitlichung.
Das sollte aber niemanden davon abschrecken, Python-Skripte als eine flexible Methode für Automatisierungen von Datenbankoperationen zu verwenden.

VERY Best Practice: Arbeiten in Python mit Pfaden - Teil 2
VERY Best Practice: Arbeiten in Python mit Pfaden - Teil 2

VERY Best Practice: Arbeiten in Python mit Pfaden - Teil 2

Immer noch das Problem: Ordner oder Laufwerke katalogisieren

Im letzten Eintrag haben wir in einer Lösung von weniger als zehn Zeilen mit einer rekursiven Funktion die Möglichkeit geschaffen, Ordner zu scannen und die Dateien nach Änderungsdatum und Dateigröße auswertbar zu machen.

Aufbauend auf diesem Beispiel möchte ich die Latte nochmal etwas höher legen und noch bessere Alternativen aufzeigen.

Best Practice: Arbeiten in Python mit Pfaden - Teil 1
Best Practice: Arbeiten in Python mit Pfaden - Teil 1

Best Practice: Arbeiten in Python mit Pfaden - Teil 1

Das Problem: Ordner oder Laufwerke katalogisieren

Vor kurzem wurde mir von Kollegen im Projekt die Frage gestellt, ob man mit Python nicht den Inhalt von Laufwerken katalogisieren könne. Natürlich geht das, und der Aufwand hierfür ist so überschaubar, dass ich hier das Beispiel nutzen möchte, um die wichtigsten Best-Practice-Empfehlungen für das Arbeiten mit Laufwerkspfaden zu erläutern.

Aufbau eines schlagkräftigen Data-Science-Teams
Aufbau eines schlagkräftigen Data-Science-Teams

Aufbau eines schlagkräftigen Data-Science-Teams

Data Science erlebt in den letzten Jahren eine zunehmende Professionalisierung und Standardisierung. Der oft intrinsisch motivierte Datenbastler und Frickler, der die Nische "Analyse" in seinem Unternehmen mit sehr hohem unternehmensinternen Daten- und Prozesswissen besetzt, kommt an seine Grenzen. Zunehmende Anforderungen, gerade im Zuge der stärkeren Kundenfokussierung über alle Branchen hinweg, zwingen Unternehmen dazu, die Strukturen im Bereich Data Science zu professionalisieren: Dies reicht vom Wissen über zur Verfügung stehende Datenquellen und deren Aufbereitung bis zu schon im Unternehmen genutzten Data-Science-Produkte.

Zeitreihenanalyse leicht gemacht – ganz ohne Analysetool
Zeitreihenanalyse leicht gemacht – ganz ohne Analysetool

Zeitreihenanalyse leicht gemacht – ganz ohne Analysetool

Ausgangssituation

Bei einem Telekommunikationsunternehmen soll der Bereich Controlling bei der Prognose der monatlichen Entwicklung von Gross-Adds-Zahlen unterstützt werden. "Gross Adds" ist die Kennzahl, die die Brutto-Neukundenzuwächse innerhalb einer bestimmten Periode wiedergibt, wobei die Zahl der verlorenen Kunden nicht berücksichtigt wird. Die Kennzahl "Gross Adds" wird vor allem in der Telekommunikationsbranche verwendet und gibt die Anzahl der neu abgeschlossenen Verträge (Postpaid und Prepaid) wieder.

SPSS Wertelabels für die Ausgabe umformatieren
SPSS Wertelabels für die Ausgabe umformatieren

SPSS Wertelabels für die Ausgabe umformatieren

Anwendungsfälle

Kategoriale Variablen können in SPSS als ursprüngliche Texte verwendet werden, was bei größeren Datenmengen beträchtliche Performance-Einbrüche mit sich bringt, oder als numerische Codes mit Labels. Der zweite Weg ist nicht nur drastisch performanter, sondern auch der richtige Weg, weil es den Code in der SPSS-Syntax zwar schlechter lesbar macht, aber dafür völlig immun gegenüber Änderungen in Schreibweisen ist.

SPSS Häufigkeitsauswertungen in R selbstgemacht
SPSS Häufigkeitsauswertungen in R selbstgemacht

SPSS Häufigkeitsauswertungen in R selbstgemacht

Seit meinem Psychologiestudium war ich ein intensiver SPSS-Nutzer. Was mich über alle Versionen in dieser Zeit begleitet hat, waren die einfachen, knappen Befehle, um mir deskriptive Statistiken anzeigen zu lassen. Diese kurzen Kommandos gehen schnell in Fleisch und Blut über und ermöglichen ein schnelles Sichten der Daten. Aktuell liegt mein Tool-Schwerpunkt bei R. Es ist eine hervorragende Alternative, aber trotz umfangreicher Erfahrung mit diesem Open-Source-Tool fehlt mir immer noch ein bisschen die gefühlte Usability von SPSS. Mir fehlen schlicht und einfach meine kurzen Kommandos. Nun ist es relativ leicht, SPSS-ähnliche Befehle selbst als Funktionen in R zu ergänzen.

PROSET - Ein Forschungsprojekt
PROSET - Ein Forschungsprojekt

PROSET - Ein Forschungsprojekt

Am PROSET-Forschungsprojekt arbeiteten die TU München, die ETH Zürich und b.telligent für insgesamt drei Jahre, von Februar 2011 bis Februar 2014. Im Mittelpunkt standen Fragestellungen, für deren Bearbeitung im gewöhnlichen Arbeitsalltag meist keine Zeit bleibt. Dabei werden oftmals Fragen behandelt, die nicht nur für die Praxis relevant sind, sondern auch neue Erkenntnisse für die Forschung ans Licht bringen. Im PROSET-Projekt haben wir uns der Frage der Produktivitätssteigerung durch Service Experience Management gewidmet.

Analyse oder App - was stellt ein Data-Science-Team eigentlich her?
Analyse oder App - was stellt ein Data-Science-Team eigentlich her?

Analyse oder App - was stellt ein Data-Science-Team eigentlich her?

Eine besonders fruchtbare aktuelle Diskussion dreht sich um die Frage, was ein Data-Science-Team eigentlich sinnvollerweise herstellt. Die beiden Möglichkeiten sind dabei schnell benannt: Auf der einen Seite steht die "Analyse", also ein einmalig erstelltes, eher statisches Endergebnis; die meisten denken hier sofort an eine PowerPoint-Präsentation. Auf der anderen Seite steht die "App", also ein interaktives, ständig mit frischen Daten versorgtes Endprodukt, häufig in Form einer Website oder einer Mobile App.