Apache Spark Training für Data Engineering

Apache Spark Training für Data Engineering

Big Data Interessierte mit keinen/wenigen Vorkenntnissen

3 Tage

Lerne Apache Spark für Data Engineers kennen

Der Kurs "Apache Spark für Data Engineering" ist ein dreitägiges Training, das die Grundlagen und praktischen Anwendungen von Apache Spark in Big-Data-Projekten behandelt. Die Teilnehmer lernen die Unterschiede zu traditionellen Datenbanken kennen und erhalten Einblicke in die Nutzung von Spark für verteilte Datenverarbeitung, Performance-Tuning und die Implementierung von ETL-Prozessen.

Der Kurs umfasst Techniken zur Anbindung anderer Technologien, Arbeiten mit der DataFrame-API in Python und Scala sowie Themen wie Structured Streaming und Machine Learning. Debugging, Monitoring und Testen von Spark-Anwendungen sind ebenfalls Teil des Programms.

Calendar icon

Nächster Termin

Auf Anfrage

Map pin icon

Schulungsort

Online

Clock icon

Trainingsdauer

3 Tage

Cash icon

Kosten

ab 1.495 EUR

Informationen zum Training

Die Arbeit mit Big-Data-Technologien unterscheidet sich deutlich von der Arbeit mit herkömmlichen Datenbanktechnologien. Das Framework Apache Spark eröffnet für den Themenbereich Data Engineering viele neue Möglichkeiten. Der 3-tägige Kurs „Apache Spark für Data Engineering“ vermittelt die notwendigen Methoden und Vorgehensweisen, um Spark für Data Engineering zu verwenden.

Neben dem notwendigen technischen Hintergrundwissen, den unterschiedlichen Anwendungsarten und den Besonderheiten der Datenverarbeitung mit Apache Spark auf verteilten Systemen wird anhand von diversen Praxisbeispielen die Arbeit mittels DataFrame-API in Python (und teilweise in Scala) dargestellt.

Die Kursteilnehmer erhalten zunächst alle wesentlichen Informationen zu Apache Spark. Dann werden praktische Fähigkeiten vermittelt, um Data-Engineering-Projekte erfolgreich zu implementieren.

  • Was ist Apache Spark und welche Position nimmt es im Big-Data-Universum ein?
  • Wo wird es für welche Use Cases eingesetzt?
  • Konnektivität von Spark mit anderen Technologien
  • Konzepte und Konsequenzen der verteilten Verarbeitung mit Spark
  • Möglichkeiten zur Ausführung von Spark (Notebooks, Shell ...)
  • DataFrames, Spark SQL
  • Performance-Faktoren und Möglichkeiten des Performance-Tunings
  • Debuggen und Monitoring von Anwendungen über die Spark-UI
  • Konfiguration von Spark-Jobs
  • Implementierung von ETLs auf Basis der DataFrame-API
  • Erstellen dynamischer Abfragen mit der DataFrame-API
  • Structured Streaming
  • Testing von Spark-Jobs
  • High-Level-Konzepte von Machine Learning auf Basis von Spark

Der Kurs richtet sich an alle Interessierten aus den Bereichen Big Data, Data Engineering und Data Science mit keinen oder wenigen Vorkenntnissen, die Apache Spark zur Durchführung von ETL-Aufgaben einsetzen wollen. Voraussetzungen sind:

  • sicherer Umgang mit SQL
  • Programmiererfahrung in Python oder Scala (siehe Vorkurs Jump Start Python)

Ein eigener Laptop mit einem VirtualBox-Client und Minimum 8 GB RAM ist für die Praxisübungen erforderlich.

Ein eigener Laptop mit einem VirtualBox-Client und Minimum 8 GB RAM ist für die Praxisübungen erforderlich.

Die Arbeit mit Big-Data-Technologien unterscheidet sich deutlich von der Arbeit mit herkömmlichen Datenbanktechnologien. Das Framework Apache Spark eröffnet für den Themenbereich Data Engineering viele neue Möglichkeiten. Der 3-tägige Kurs „Apache Spark für Data Engineering“ vermittelt die notwendigen Methoden und Vorgehensweisen, um Spark für Data Engineering zu verwenden.

Neben dem notwendigen technischen Hintergrundwissen, den unterschiedlichen Anwendungsarten und den Besonderheiten der Datenverarbeitung mit Apache Spark auf verteilten Systemen wird anhand von diversen Praxisbeispielen die Arbeit mittels DataFrame-API in Python (und teilweise in Scala) dargestellt.

Die Kursteilnehmer erhalten zunächst alle wesentlichen Informationen zu Apache Spark. Dann werden praktische Fähigkeiten vermittelt, um Data-Engineering-Projekte erfolgreich zu implementieren.

  • Was ist Apache Spark und welche Position nimmt es im Big-Data-Universum ein?
  • Wo wird es für welche Use Cases eingesetzt?
  • Konnektivität von Spark mit anderen Technologien
  • Konzepte und Konsequenzen der verteilten Verarbeitung mit Spark
  • Möglichkeiten zur Ausführung von Spark (Notebooks, Shell ...)
  • DataFrames, Spark SQL
  • Performance-Faktoren und Möglichkeiten des Performance-Tunings
  • Debuggen und Monitoring von Anwendungen über die Spark-UI
  • Konfiguration von Spark-Jobs
  • Implementierung von ETLs auf Basis der DataFrame-API
  • Erstellen dynamischer Abfragen mit der DataFrame-API
  • Structured Streaming
  • Testing von Spark-Jobs
  • High-Level-Konzepte von Machine Learning auf Basis von Spark

Der Kurs richtet sich an alle Interessierten aus den Bereichen Big Data, Data Engineering und Data Science mit keinen oder wenigen Vorkenntnissen, die Apache Spark zur Durchführung von ETL-Aufgaben einsetzen wollen. Voraussetzungen sind:

  • sicherer Umgang mit SQL
  • Programmiererfahrung in Python oder Scala (siehe Vorkurs Jump Start Python)

Ein eigener Laptop mit einem VirtualBox-Client und Minimum 8 GB RAM ist für die Praxisübungen erforderlich.

Ein eigener Laptop mit einem VirtualBox-Client und Minimum 8 GB RAM ist für die Praxisübungen erforderlich.

Jetzt Termine anfragen

Starte jetzt mit deinem Apache Spark Training

The top of an office building on a bright day

Training sessions

Natoque enim cursus in eget commodo. Elementum suspendisse necnulla sapien amet orci varius dignissim. Lorem magna etiam massa lectus  tempus nibh nisi amet. Sed cursus ut dui tempus.

Lerne die Trainer:innen kennen

Stefan Seltmann

Stefan Seltmann

Management Consultant

Stefan ist Diplom-Psychologe und Berater mit Schwerpunkt Data Science & AI. Er ist Experte für Machine Learning auf Basis von unterschiedlichen Sprachen und Technologien und setzt Apache Spark bereits erfolgreich in diversen Projekten mit Python und mit Scala ein. Als erfahrener Data-Science-Praktiker mit mehr als 15 Jahren Projekterfahrung kennt er die Welt der relationalen Datenbanken ebenso wie die der Big-Data-Technologien und freut sich darauf, den Kursteilnehmern Lust auf den Umgang mit Apache Spark zu machen.

Weitere Trainings

Power Apps & Power Automate

User icon

Power App & Power Automate User und Developer

Calendar icon

1 Tag pro Session

Infos & Anmeldung

Databricks und Spark

User icon

Analysts, Data Engineers

Calendar icon

1 Tag

Infos & Anmeldung

Grundlagen dbt

User icon

Data Engineers, Data Analysts, BI-Entwickler

Calendar icon

1 Tag

Infos & Anmeldung

Looker Academy

User icon

Data Engineers, Data Analysts, Tech Lead & Management

Calendar icon

2-4 Stunden pro Session

Infos & Anmeldung

Lust auf mehr?

Neben unseren Trainings haben wir noch weitere spannende Ressourcen wie Whitepaper, Webinare und unseren Blog für Dich. Finde heraus, wie wir Dich mit praxisnaher Expertise rund um Data & Analytics unterstützen können.

Drei b.telligent Mitarbeiter lachen und arbeiten gemeinsam am Laptop

Expertenwissen auf Abruf

Entdecke Whitepaper und Webinare, die den Unterschied machen: Praxisnahe Insights, Best Practices und die aktuellsten Trends rund um Data & Analytics, vermittelt von erfahrenen Expert*innen.

Zwei b.telligent Mitarbeiterinnen arbeiten gemeinsam am Laptop

Tipps & Trends im Blog

Von Data Strategy bis AI – hier findest Du praxisnahe Tipps und fundierte Einblicke, die Dich weiterbringen. Lass Dich inspirieren und entdecke Lösungen für Deine datengetriebene Zukunft.