Data Science & AI

Nahaufnahme von Händen auf einer Laptop-Tastatur
Large Language Models – ein Überblick über die Modelllandschaft
Large Language Models – ein Überblick über die Modelllandschaft

Large Language Models – ein Überblick über die Modelllandschaft

Seit der Veröffentlichung von ChatGPT und der Aufmerksamkeit, die auf Large Language Models gelenkt wurde, erleben wir einen rasanten Anstieg an Veröffentlichungen weiterer Modelle und einen sich schnell entwickelnden Markt mit der Nutzung von LLMs. Die Eignung eines Modells für die Nutzung im Unternehmenskontext ist stark abhängig vom jeweiligen Use Case. In diesem Blogbeitrag wollen wir die derzeit wichtigsten Modelle genauer ansehen und anhand unternehmensrelevanter Kriterien vergleichen, sodass Du einen besseren Überblick behalten kannst.

Data Science für Kids: Wie gewinne ich bei „Wer ist es“?
Data Science für Kids: Wie gewinne ich bei „Wer ist es“?

Data Science für Kids: Wie gewinne ich bei „Wer ist es“?

Neulich habe ich gegen meinen sechsjährigen Sohn „Wer ist es?“ gespielt, ein klassisches Spiel für Kinder von ca. 6 bis 9 Jahren. Dabei wollten wir natürlich beide wissen, wie man das Spiel gewinnt. Aus der Frage ist diese Artikelreihe entstanden. Dieser Teil richtet sich an die ganze Familie. Also: Lasst uns gewinnen!

Mit Python Ibis Analytics-Projekte schneller ausliefern
Mit Python Ibis Analytics-Projekte schneller ausliefern

Mit Python Ibis Analytics-Projekte schneller ausliefern

Wenn eine Datenanalyse-Pipeline nach erfolgreichem Proof of Concept (POC) in Produktion gehen soll, ist dies oft ein langer Weg. Ibis bietet die Möglichkeit, diesen Prozess zu vereinfachen und somit schneller Mehrwert zu erzeugen.

Nach der erfolgreichen lokalen Entwicklung einer Analyse-Datenpipeline in Python muss der Code oftmals umgeschrieben werden, um in Produktion laufen zu können. Aber muss das eigentlich so sein? Die Python-Ibis-Bibliothek, die der Hauptautor der Python-Pandas-Bibliothek Wes McKinney programmiert hat, bietet eine spannende Lösung, um Datenverarbeitung zwischen Produktions- und Entwicklungsumgebungen anzugleichen und es somit dem Analytics-Team zu ermöglichen, schneller in Produktion zu gehen. Wir zeigen Dir in diesem Blogbeitrag, wie das funktioniert.

Dein Leitfaden für die Nutzung von generativer KI und LLMs
Dein Leitfaden für die Nutzung von generativer KI und LLMs

Dein Leitfaden für die Nutzung von generativer KI und LLMs

Seit der Einführung von ChatGPT Ende 2022 sind wir alle von den Möglichkeiten der generativen KI und Large Language Models (LLMs) begeistert. Was die Leute faszinierte, war die unglaubliche Leichtigkeit, mit der qualitativ hochwertige Texte, Antworten auf Fragen, Codefragmente usw. generiert werden können. Alles, was man braucht, ist eine Eingabeaufforderung, d. h. eine Texteingabe, die man in die ChatGPT-API einspeist, und voilà, man erhält seine Antwort. Wir befinden uns immer noch in dem Hype um die generative KI, bei dem die Vorteile einer Technologie überbewertet werden. Für Unternehmen ist es wichtig, die Fallstricke zu vermeiden und zu verstehen, wann und wie sie ChatGPT oder generative KI-Lösungen einsetzen sollten. In diesem Blogbeitrag blicken wir über den Hype hinaus und zeigen einen Ansatz zur Evaluierung und Implementierung von LLM-basierten Gen-KI-Anwendungsfällen.

Caret: ein Blumenstrauß an Funktionen für die prädiktive Modellbildung in R
Caret: ein Blumenstrauß an Funktionen für die prädiktive Modellbildung in R

Caret: ein Blumenstrauß an Funktionen für die prädiktive Modellbildung in R

R ist eine der populärsten Open-Source-Programmiersprachen für Predictive Analytics. Ihr großer Vorteil ist das Comprehensive R Archive Network (CRAN) mit über 10.000 Paketen für verschiedenste Modelllösungen. Ein Hindernis ihrer Anwendung besteht jedoch in der häufig paketspezifischen Syntax (im Gegensatz zu z. B. Python). Das Paket Caret versucht, durch ein einheitliches Interface auf verschiedene Trainings- und Vorhersagefunktionen den Modellierungsprozess zu vereinfachen. Durch seine Datenvorbereitungs-, Merkmalsselektions- und Modell-Tuning-Funktionalität erleichtert Caret die Bildung und Evaluierung von prädiktiven Modellen. Dieser Blogeintrag zeigt auf, wie wir mit Caret verschiedenen Herausforderungen des Modellierungsprozesses begegnen können, insbesondere bei der Selektion und dem Tuning von Modellen.

Recommender Systems – Teil 3: Personalisierte Empfehlungssysteme, Machine Learning und Evaluation
Recommender Systems – Teil 3: Personalisierte Empfehlungssysteme, Machine Learning und Evaluation

Recommender Systems – Teil 3: Personalisierte Empfehlungssysteme, Machine Learning und Evaluation

Algorithmen für personalisierte Empfehlungen

Nicht immer hinterlassen Nutzer ausreichend personalisierte Informationen entlang ihrer Customer Journey. Beispielsweise können neue Nutzer hinzukommen oder bestehende Kunden beim Surfen von Online-Angeboten nicht angemeldet sein. Nicht personalisierte Empfehlungssysteme, wie der Vorschlag häufig gemeinsam gekaufter Produkte, bieten Unternehmen in diesem Fall trotzdem Möglichkeiten für Empfehlungen. Je individueller diese jedoch auf den Kunden zugeschnitten werden, desto besser. Deshalb werden im Folgenden Verfahren vorgestellt, die deutlich stärker personalisiert sind und die Präferenzen der Kunden erlernen. Zum Verständnis dieser Methoden ist es hilfreich, sich das Problem als dünnbesetzte Matrix vorzustellen.

Nutzen von privaten Python Packages in Vertex AI - 3
Nutzen von privaten Python Packages in Vertex AI - 3

Nutzen von privaten Python Packages in Vertex AI - 3

Als Data Scientists trainieren wir regelmäßig unterschiedliche Machine-Learning-Modelle in der Cloud. Wie Du Dein Modelltraining mithilfe von Python Packages nun strukturierst, erfährst Du hier. Denn obwohl jedes Modell seinen eigenen, individuellen Anwendungszweck hat, fällt irgendwann auf, dass Codeschnipsel von einem Projekt in das andere kopiert werden. Bei mir ist es häufig Code für das Einlesen von Daten aus einer Datenbank oder für einen Preprocessing-Schritt. Um genau dieses Kopieren von Code zu vermeiden, sind Python-Pakete ideal geeignet – oft genutzte Funktionen lassen sich an einem Ort sammeln. Dies bringt viele Vorteile bei der Wartung und dem Testing des Codes.Im folgenden Blogartikel wollen wir uns ansehen, wie ein Python-Paket in der GCP nutzbar gemacht und in einen Vertex-AI-Training-Job eingebunden werden kann.

HOWTO: Große Dateien verarbeiten mit Standard-Python
HOWTO: Große Dateien verarbeiten mit Standard-Python

HOWTO: Große Dateien verarbeiten mit Standard-Python

Vorgefertigte Datensätze, die den Rahmen sprengen

Häufig werde ich mit bereitgestellten Rohdaten für Analysen konfrontiert, welche sich unkomprimiert durchaus auf Dateien von einem halben Gigabyte oder mehr erstrecken. Ab einem Gigabyte kommen die Desktop-gestützten Statistik-Tools langsam ins Schwitzen. Es gibt natürlich je nach Tool Möglichkeiten, nur einen Teil der Spalten zu selektieren oder nur die ersten 10.000 Zeilen zu laden usw.

Aber was macht man, wenn man aus der Datenlieferung nur eine zufällige Stichprobe ziehen möchte? Man darf sich nie darauf verlassen, dass die Datei zufällig sortiert ist. Sie kann durch Prozesse im Datenbankexport bereits systematische Reihenfolgeeffekte beinhalten. Es kann aber auch vorkommen, dass man z.B. nur ein Zehntel einer Gruppierung analysieren möchte, wie etwa die Einkäufe jedes zehnten Kunden. Dazu muss die komplette Datei gelesen werden, sonst kann man nie sicherstellen, dass alle Einkäufe der gefilterten Kunden berücksichtigt wurden.

HOWTO: Einfaches Web Scraping mit Python
HOWTO: Einfaches Web Scraping mit Python

HOWTO: Einfaches Web Scraping mit Python

Erschlagendes Angebot im Webshop

Vor zwei Wochen wurde ich von einem oft genutzten Online-Versand, dessen Namen an ein Fluss in Südamerika erinnert, per freundlicher Info-Mail auf eine Aktion aufmerksam gemacht. Und zwar wurden mir drei Musik-CDs aus einer großen Auswahl für 15€ angeboten.

Ich erwerbe immer noch gerne, wie früher, Musik auf physischen Tonträgern und wollte mir das Angebot genauer ansehen. Nun stellte sich heraus, dass etwa 9,000 CDs offeriert wurden, und das über etwa 400 Seiten im Online-Shop. Dieser Shop bietet mir die Möglichkeit, das Angebot nach Beliebtheit oder nach Kundenbewertung zu sortieren. Wenn ich jedoch die Beliebtheit absteigend betrachte, finde ich viele Titel, die nicht mehr ganz meiner Altersklasse entsprechen. Andererseits, wenn ich nach Kundenbewertung sortiere, stellt sich heraus, dass der Shop die Bewertungen ungewichtet verarbeitet. D.h. irgendeine CD mit volkstümlichen Schlagern wird mit nur einer 5-Sterne Bewertung vor einer anderen CD mit 4.9 Sternen auf 1000 Bewertungen aufgeführt.