Zum Hauptinhalt springen

Das Apache Spark Training von b.telligent

Nächster Termin

auf Anfrage

Schulungsort

Online

Dauer

3 Tage

Kosten

ab 1.495 €
(je nach Teilnehmeranzahl)

Inhalt

Die Arbeit mit Big-Data-Technologien unterscheidet sich deutlich von der Arbeit mit herkömmlichen Datenbanktechnologien. Das Framework Apache Spark eröffnet für den Themenbereich Data Engineering viele neue Möglichkeiten. Der 3-tägige Kurs „Apache Spark für Data Engineering“ vermittelt die notwendigen Methoden und Vorgehensweisen, um Spark für Data Engineering zu verwenden.

Neben dem notwendigen technischen Hintergrundwissen, den unterschiedlichen Anwendungsarten und den Besonderheiten der Datenverarbeitung mit Apache Spark auf verteilten Systemen wird anhand von diversen Praxisbeispielen die Arbeit mittels DataFrame-API in Python (und teilweise in Scala) dargestellt.

Ziele

Die Kursteilnehmer erhalten zunächst alle wesentlichen Informationen zu Apache Spark. Dann werden praktische Fähigkeiten vermittelt, um Data-Engineering-Projekte erfolgreich zu implementieren.

  • Was ist Apache Spark und welche Position nimmt es im Big-Data-Universum ein?
  • Wo wird es für welche Use Cases eingesetzt?
  • Konnektivität von Spark mit anderen Technologien
  • Konzepte und Konsequenzen der verteilten Verarbeitung mit Spark
  • Möglichkeiten zur Ausführung von Spark (Notebooks, Shell ...)
  • DataFrames, Spark SQL
  • Performance-Faktoren und Möglichkeiten des Performance-Tunings
  • Debuggen und Monitoring von Anwendungen über die Spark-UI
  • Konfiguration von Spark-Jobs
  • Implementierung von ETLs auf Basis der DataFrame-API
  • Erstellen dynamischer Abfragen mit der DataFrame-API
  • Structured Streaming
  • Testing von Spark-Jobs
  • High-Level-Konzepte von Machine Learning auf Basis von Spark

Jetzt Termine anfragen!

An dieser Stelle findest Du ein externes Formular. Passe Deine Privatsphäre-Einstellungen an, um das Formular sehen und abschicken zu können.

Zu den Privatsphäre-Einstellungen

Voraussetzungen & Teilnehmer

Der Kurs richtet sich an alle Interessierten aus den Bereichen Big Data, Data Engineering und Data Science mit keinen oder wenigen Vorkenntnissen, die Apache Spark zur Durchführung von ETL-Aufgaben einsetzen wollen. Voraussetzungen sind:

  • sicherer Umgang mit SQL
  • Programmiererfahrung in Python oder Scala (siehe Vorkurs Jump Start Python)

Ein eigener Laptop mit einem VirtualBox-Client und Minimum 8 GB RAM ist für die Praxisübungen erforderlich.

Das benötigst Du für dieses Training

Ein eigener Laptop mit einem VirtualBox-Client und Minimum 8 GB RAM ist für die Praxisübungen erforderlich.

Referent

Stefan Seltmann ist Diplom-Psychologe und Principal Consultant im Competence Center Data Science bei b.telligent. Er ist Experte für Machine Learning auf Basis von unterschiedlichen Sprachen und Technologien und setzt Apache Spark bereits erfolgreich in diversen Projekten mit Python und mit Scala ein. Als erfahrener Data-Science-Praktiker mit mehr als 15 Jahren Projekterfahrung kennt er die Welt der relationalen Datenbanken ebenso wie die der Big-Data-Technologien und freut sich darauf, den Kursteilnehmern Lust auf den Umgang mit Apache Spark zu machen.

Keine Zeit für ein komplettes Training? Dann schaue doch einfach mal hier vorbei!

München
b.telligent Group Holding GmbH
Walter-Gropius-Straße 17
80807 München


Zürich
b.telligent Schweiz GmbH
Kanzleistrasse 57
8004 Zürich