ProSiebenSat.1: Building a Unified Data Lake

ProSiebenSat.1: Building a Unified Data Lake

Erfolgreiche Migration einer komplexen Datenplattform in die AWS-Cloud

Erfolgreiche Reise einer komplexen Datenplattform in die AWS-Cloud

Zerklüftete Datenlandschaft und begrenzte Skalierung? Ist Vergangenheit! Gemeinsam mit b.telligent migrierte ProSiebenSat.1 seine komplexe Datenplattform in die AWS-Cloud und schuf einen Unified Data Lake mit Databricks. Das Ergebnis: zentralisierte Daten, nahtlose Skalierbarkeit und blitzschnelle Analysen – für bessere Insights, schnellere Entscheidungen und maximale Effizienz!

Projekt auf einen Blick

Map pin icon

Standort & Branche: Deutschland, Medien

Building icon

Unternehmensgröße: Konzern

Clock icon

Projektdauer: 16 Monate

Folder icon

Projekttyp: Cloud-Migration

cog icon

Technologie: AWS, Databricks

Über den Kunden

Ausgangssituation & Herausforderung

ProSiebenSat.1 Tech & Services stellt als zentrale Einheit eine Datenplattform zur Verfügung und bietet in diesem Zusammenhang Services zur Realisierung von datengetriebenen Use Cases an. Für die Migration der kompletten Datenplattform in die AWS-Cloud setzt ProSiebenSat.1 auf die Unterstützung von b.telligent und vertraut damit auf die enge und partnerschaftliche Zusammenarbeit, mit der schon viele unterschiedliche Projekte erfolgreich realisiert werden konnten.

Sieben Teams aus Mitarbeitenden von ProSiebenSat.1 und b.telligent arbeiten gemeinsam an diesem umfangreichen Migrationsprojekt. Das Lake-Team ist verantwortlich für die Migration des Unified Data Lakes, bindet zentral alle Quellsysteme an und stellt diese aufbereitet den Produktteams zur Verfügung.

Motivation & Lösungsansatz

Mit der Cloud-Migration schafft ProSiebenSat.1 die Basis für die zukünftige Datenlandschaft mit über 1.000 direkten User:innen. Ausgangslage war eine Hadoop-basierte Plattform on-prem mit begrenzten Skalierungsmöglichkeiten und einem hohen Aufwand für Betrieb und Weiterentwicklung. Daneben existierten weitere Data Lakes und kleinere Plattformen mit teilweise redundanter Datenhaltung. Die neue Plattform und die dafür gewählten Technologien schaffen freie Kapazitäten für die effektive Nutzung von Daten, um fachlichen Mehrwert zu generieren.

Neben dem Technologiewechsel findet gleichzeitig eine Modernisierung der eigentlichen Datenarchitektur und eine Zentralisierung der Bereiche BI/DWH, Data Science und AI statt. So werden zusätzlich Aufwände für den Betrieb der Plattform reduziert und Möglichkeiten für den zukünftigen Ausbau und neue Use Cases geschaffen. Die zentrale Herausforderung besteht in der Vielzahl und Diversität der über 80 Quellsysteme, inklusive deren historischer Daten mit über 600 TB.

Als technologische Basis für den Unified Data Lake wurde Databricks in Kombination mit nativen AWS-Services gewählt. Als Grundlage für die eigentliche Datenarchitektur dient eine codebasierte Infrastruktur. Die Umsetzung auf AWS als präferiertem Cloud-Anbieter von ProSiebenSat.1 stellt sicher, dass die gesammelten Daten unternehmensweit einfach, sicher und effizient konsumiert werden können.

Architektur eines einheitlichen Data Lakes in der AWS-Cloud mit Databricks: Darstellung der Control Plane und Compute Plane, Integration von Amazon RDS und DynamoDB, Sicherheitsdienste wie IAM und KMS, unterstützende AWS-Services sowie Data-Lake-Stufen (Akquise, Ingestion, Standardisierung) und Workspaces (DEV, TEST, PROD).

Aufgrund der Anzahl an Quellen lag der Fokus auf einer maximal standardisierten Datenarchitektur mit modularem Aufbau, orientiert an Standards aus der Software-Entwicklung. Der Unified Data Lake übernimmt die Anbindung von Quellsystemen sowie deren technische und fachliche Harmonisierung. Als Ergebnis stehen den Produktteams und Fachbereichen zentral nutzbare und gut aufbereitete Daten zur Verfügung.

Übersicht eines metadatengetriebenen ELT-Frameworks mit Apache Spark und Delta Lake: Darstellung der Datenverarbeitung von der Akquise über Ingestion bis zur Standardisierung, Integration vielfältiger Datenquellen (z. B. REST, sFTP, Google Analytics, SAP), Unterstützung für AI mit MLflow sowie BI-Tools für Reporting und Planung. Zentrale Services wie Governance, CI/CD, Data Quality und Scheduling sind ebenfalls eingebunden.

Herzstück der Verarbeitung ist ein metadatenbasiertes ELT-Framework auf Basis von Spark. Auf der Grundlage von Konnektoren können neue Quellsysteme einfach durch Konfiguration angebunden werden. Nach der Integration und der damit verbundenen Harmonisierung ins Delta-Format werden im finalen Schritt fachliche Regeln (Datentypen, Casting, Benamung, Transformationen …) angewandt. Technologische Basis für das Framework ist eine AWS RDS Aurora Postgres für die Verwaltung der operativen Metadaten sowie eine AWS DynamoDB für die Quellkonfigurationen.

Neben der Bereitstellung der eigentlichen Daten bietet die Plattform weitere Services:

  • zentrale Governance auf Basis des Unity Catalog zur granularen Steuerung von Berechtigungen sowie Dokumentation von Inhalten wie z. B. die Kategorisierung von personenbezogenen Daten
  • systemübergreifende Orchestrierung von Datenpipelines mit Airflow
  • Sicherstellung der Datenqualität durch vollautomatisierte Tests in SODA, inklusive Alerting durch Integration in Slack und Jira
  • AWS DataSync zur Sicherstellung der 1:1-Migrationen und eines risikolosen Übergangs des Altsystems Quelle für Quelle

Erste Abnehmer sind die DWH-Produktteams, die im weiteren Schritt einen nach Data Vault modellierten Core-Layer mit Hilfe des Data Vault Builders in Snowflake aufbauen. Die finale Bereitstellung erfolgt anschließend Use-Case-abhängig über Tools wie Tableau, Longview oder direkten Datenbankzugriff.

Stimmen aus dem Projekt

Quote icon

Als Product Owner stelle ich mir den Unified Data Lake als einen Zusammenfluss vor, in dem Daten aus verschiedenen Quellen zu einer Single Source of Truth verschmelzen, die KI-Modelle antreibt und BI-Einblicke für jeden Datenkonsumenten in unserem Medienökosystem ermöglicht.

Vijay Kumar Nagaraj

Product Owner Unified Data Lake bei ProSiebenSat.1 Media

Selbst anfängliche Skeptiker waren durch die zielstrebige und kompetente Arbeit des integrierten Teams mit b.telligent schnell von der neuen Plattform und ihren Vorteilen überzeugt und wir finden heute hochzufriedene Produktteams und Abnehmer unseres Unified Data Lakes vor.

Gerhard Niederbrucker

VP Data Platforms bei ProSiebenSat.1 Media

b.telligent Leistungen auf einen Blick

badge icon

Cloud Migration

Erfolgreiche Migration einer komplexen Hadoop-basierten Datenplattform in die AWS-Cloud für bessere Skalierbarkeit und Effizienz.

badge icon

Datenarchitektur

Modernisierung der Datenarchitektur mit einer codebasierten Infrastruktur und Vereinheitlichung von BI, Data Science und AI.

badge icon

Datenintegration & Harmonisierung

Anbindung von über 80 Quellsystemen mit standardisierten Prozessen für Datenaufnahme, Transformation und Bereitstellung.

badge icon

Automatisierte Governance & QS

Implementierung des Unity Catalogs zur Berechtigungssteuerung und automatisierte Datenqualitätsprüfungen mit SODA.

badge icon

Enablement & Wissensaufbau

Enge Zusammenarbeit mit internen Teams zur Befähigung der Mitarbeitenden und nachhaltigen Nutzung der neuen Plattform.

badge icon

Datenpipeline-Orchestrierung

Aufbau einer systemübergreifenden Orchestrierung mit Airflow zur Automatisierung und Steuerung von Datenprozessen.

ProSiebenSat.1: Building a Unified Data Lake

Ergebnisse & Erfolge

check icon

Schnelle Umsetzung: Nach vier Monaten liefen die ersten Quellen stabil.

check icon

Effizient und kostensparend: Skalierung, Standardisierung und Optimierung senkten die Infrastrukturkosten unter On-Prem- und Cloud-Kalkulationen.

check icon

Hohe Akzeptanz und Nachhaltigkeit: Die Plattform entlastet Teams, fördert Innovationen und stärkt die interne Unabhängigkeit.

Vier Monate nach Projektstart standen den Produktteams auf der neuen Plattform die ersten Quellen zur Verfügung und laufen seither stabil. Mittlerweile sind alle geplanten Quellen migriert. In der letzten Phase des Projekts lag der Fokus auf dem Ausbau der Monitoring- und Alerting-Möglichkeiten sowie der Festigung der Betriebsprozesse. Parallel findet bereits das Onboarding weiterer Teams auf die Plattform statt. Hierzu zählt unter anderem die Migration von AI-Use-Cases, die von den zentralen und bereits aufbereiteten Daten Gebrauch machen und nicht mehr auf eine eigene Anbindung angewiesen sind.

Das technologische Setup konnte sich bereits mehrmals während der Migration beweisen. So profitierte das Projekt von den Skalierungsmöglichkeiten bei der Zusammenführung von historischen Daten mit der schrittweisen Migration der Quellen. Durch die konsequente Standardisierung und Optimierung der Beladungsschritte sind die Infrastrukturkosten geringer als die Kosten für eine On-Prem-Lösung und sogar niedriger als die ursprünglich geplanten Kosten für das neue Cloud-Setup. Die Vorteile von Databricks zeigen sich zudem bei der zentralen Governance mittels Unity Catalog sowie der performanten Spark-basierten Verarbeitung, welche vor allem bei ehemaligen Langläufer-Ladejobs deutliche Verbesserungen erzielt.

Neben den beschriebenen Vorteilen zeigt sich der Erfolg des Projekts vor allem in der Akzeptanz der neuen Plattform. Weitere Teams starteten bereits während der Migrationsphase ihr Onboarding auf den Unified Data Lake. Der zentrale Mehrwert ist – wie erhofft – die Reduzierung von Aufwänden für den Betrieb von Infrastruktur und Verarbeitung. Dadurch verstärkt sich der Fokus auf mehrwertgenerierende Datenprodukte, die durch die Produktteams in Form von Datenmodellierung oder der Umsetzung von AI-Use-Cases realisiert werden können. Das integrierte Teamsetup mit b.telligent ermöglichte den Aufbau notwendiger Kapazitäten für die Migration. Für die Konzeption der Architektur sowie die Umsetzung und Nutzung des metadatenbasierten Frameworks spielte das externe Expertenwissen eine entscheidende Rolle. Gleichzeitig fand durch die enge Zusammenarbeit ein Enablement der internen Kolleg:innen statt, das ein schrittweises Ausphasen von b.telligent ermöglicht.

Technologien im Einsatz

Amazon Web Services (AWS)

Als Advanced Partner von AWS unterstützt b.telligent seine Kunden bei der Migration und Einrichtung von Datenplattformen in der AWS-Cloud. Mehr Infos hier!

weiterlesen

Databricks

Eine einheitliche Datenplattform für alle Deine BI- und AI-Use-Cases – skalierbar, performant und kostengünstig. Erfahre mehr darüber!

weiterlesen
Mann unterhält sich lächelnd am Tisch mit einer Frau

Die ganze Story zum Download

Du möchtest unsere Success Story als druckbaren Flyer? Für Dich, oder um Deinem Team das Projekt vorstellen zu können?
Dann lade Dir einfach hier die ganze Erfolgsstory als pdf herunter.
Viel Spaß beim Lesen!

Klaus-Dieter Schulze

Klaus-Dieter Schulze

Geschäftsführer

Inspiriert?

Du findest unsere Success Stories spannend? Du hast eine ähnliche Herausforderung rund um die Themen Data, Analytics & AI und wünschst Dir professionelle Unterstützung? Dann melde Dich gern bei uns. In einem unverbindlichen Beratungsgespräch können wir schnell klären, wie wir Dir am besten helfen können.