Data Science & AI

Nahaufnahme von Händen auf einer Laptop-Tastatur
Neural Averaging Ensembles für Tabellendaten mit TensorFlow 2.0
Neural Averaging Ensembles für Tabellendaten mit TensorFlow 2.0

Neural Averaging Ensembles für Tabellendaten mit TensorFlow 2.0

Neuronale Netze werden erfolgreich auf so ziemlich jeden Datentyp angewandt: Bilder, Audio, Texte, Videos, Graphen usw. Nur wenn es um Tabellendaten geht, sind baumbasierte Ensembles wie Random Forests und Gradient Boosted Trees immer noch sehr viel verbreiteter. Wenn man diese erfolgreichen Klassiker durch neuronale Netze ersetzen will, dürfte Ensemble Learning immer noch eine Schlüsselidee sein. Dieser Blogbeitrag erklärt, warum das so ist. Dazu gibt’s ein Notebook mit den praktischen Details.

Azure-KI-Suche dimensionieren und skalieren
Azure-KI-Suche dimensionieren und skalieren

Azure-KI-Suche dimensionieren und skalieren

Azure AI Search, Microsofts serverloses Angebot für das R in RAG, hat seine eigene Skalierungslogik. Sie verbirgt viel von der Komplexität serverbasierter Lösungen, erfordert aber spezifische Kenntnisse.

Effiziente Abstands-Joins in Polars
Effiziente Abstands-Joins in Polars

Effiziente Abstands-Joins in Polars

Polars: schneller entwickeln, schneller ausführen

Polars, der in Rust geschriebene Pandas-Herausforderer, sorgt für erhebliche Beschleunigung nicht nur in der Ausführung des Codes, sondern auch in der Entwicklung. Pandas krankt seit jeher an einer API, die an vielen Stellen „historisch gewachsen“ ist. Ganz anders Polars: Eine API, die von Anfang an auf logische Konsistenz ausgelegt ist und deren Stringenz mit jedem Release sorgfältig gepflegt wird (im Zweifelsfall auch unter Verlusten an Rückwärtskompatibilität), sorgt für eine erheblich schnellere Entwicklung. An vielen Stellen, wo man bisher Pandas eingesetzt hat, kann man es problem los durch Polars ersetzen: In Ibis-Analytics-Projekten, und natürlich einfach für die tägliche Datenaufbereitung aller Art. Gut macht sich die überlegene Performance auch in interaktiven Umfeldern wie PowerBI .

Wie ausgereift ist Dein ML-Ansatz?
Wie ausgereift ist Dein ML-Ansatz?

Wie ausgereift ist Dein ML-Ansatz?

Was sind MLOps?

Machine Learning Operations (MLOps) sind eine Praxis für die Zusammenarbeit und Kommunikation zwischen Datenwissenschaftler:innen und Betriebsexpert:innen, um die Lebenszyklen von Machine Learning (ML) in der Produktion zu verwalten. Dabei werden die Grundsätze von DevOps in den ML-Lebenszyklus einbezogen, um den Prozess von der Modellentwicklung bis zur Bereitstellung und Überwachung zu rationalisieren und zu automatisieren. Ziel von MLOps ist es, ML-Modelle auf strukturierte und effiziente Art und Weise schneller bereitzustellen und zu skalieren.

Automatisierte Bildverarbeitung: Eine Standard-Architektur
Automatisierte Bildverarbeitung: Eine Standard-Architektur

Automatisierte Bildverarbeitung: Eine Standard-Architektur

Der PoC ist gemacht, ein produktionsreifes Modell wurde trainiert und der Showcase hat alle Stakeholder:innen begeistert. Doch damit sich nun auch Business Cases mit dem Modell realisieren lassen, bedarf es einer Einbettung des Modells (und der Prozessierung) in die bestehende (Cloud-)Landschaft.

LightGBM auf Vertex AI
LightGBM auf Vertex AI

LightGBM auf Vertex AI

In der Google Cloud ist Vertex AI das MLOps-Framework. Es ist sehr flexibel und kann grundsätzlich mit jedem beliebigen Modellierungs-Framework verwendet werden. Einige sind jedoch etwas einfacher zu nutzen als andere: TensorFlow, XGBoost und scikit-learn beispielsweise werden mit vorgefertigten und durchaus hilfreichen Container-Images unterstützt. nDieser Blogbeitrag zeigt, wie Du andere Frameworks einsetzen kannst. Wir verwenden ein LightGBM-Modell als Beispiel, der Arbeitsablauf kann aber recht leicht auf jedes andere Modellierungspaket übertragen werden.

Wie installiert man Ray unter Windows?
Wie installiert man Ray unter Windows?

Wie installiert man Ray unter Windows?

Ray erfreut sich in der Machine-Learning-Community wachsender Beliebtheit. Es unter Windows zum Laufen zu bringen, kann jedoch knifflig sein. Wir zeigen Dir, wie es trotzdem funktioniert.

Vertex AI Pipelines – Die ersten Schritte
Vertex AI Pipelines – Die ersten Schritte

Vertex AI Pipelines – Die ersten Schritte

Nachdem wir in den ersten Artikeln einen Ausflug in die Welt von Ray gemacht haben, wollen wir uns jetzt Vertex AI – dem Schlüsselbereich aller Machine Learning Services in GCP – widmen. Pipelines sollen das Leben in der Machine-Learning-Welt einfacher machen. Sie versprechen, durch ein hohes Maß an Automatisierung Entwicklungszyklen zu verkürzen. Außerdem soll das Team durch eine Abstraktion der Infrastruktur keine Expertise mit Microservices etc. benötigen und kann sich stattdessen auf seine Kernkompetenzen fokussieren.

In diesem Blogbeitrag wollen wir uns an einem einfachen Beispiel ansehen, wie eine Machine Learning Pipeline in Vertex AI aufgesetzt werden kann.

Quantilregression mit Gradient Boosted Trees
Quantilregression mit Gradient Boosted Trees

Quantilregression mit Gradient Boosted Trees

Wenn wir einfache deskriptive Analysen durchführen, beschränken wir uns nur selten auf die Mittelwerte. Häufiger werfen wir einen Blick auf die ganze Verteilung, sehen uns Histogramme, Quantile und Ähnliches an. Mittelwerte allein führen oft zu falschen Schlussfolgerungen und unterschlagen wichtige Informationen. Warum vergessen wir das, sobald wir Vorhersagemodelle erstellen? Diese zielen meist nur auf Mittelwerte – und die lügen.