Apache Spark- Aufbau von Big Data Pipelines für Data Engineers - Schulung (2 Tage)

Apache Spark- Building Big Data Pipelines for Data Engineers

Kurzbeschreibung

Die ist eine vom Dozenten geleitete Schulung für den Aufbau von einer Big Data Pipeline Lösung auf Basis von Apache Spark und der Programmiersprache Scala.

Apache Spark zählt zu den beliebtesten Big Data Frameworks für Prozessierung sehr großer Datenmengen (Big Data) in Form von strukturierten SQL-Datenbankabfragen sowie Batch- und Streaming Verarbeitung. Apache Spark wurde entwickelt, um eine höhere Leistung dank In-Memory-Berechnungen und Optimierungsoptionen bei der Datenverarbeitung im Hadoop-Ökosystem zu erreichen.

Dieser Kurs vermittelt die Grundlagen zum Aufbau und Betrieb von Data Pipiline Strukturen. Das sind Strukturen, um Daten von einer Ursprungsquelle zu einer Zielquelle zu verschieben. Zunächst erfolgt ein grundlegender Einblick auf Prinzipien und Kernkonzepte von Apache Spark. Insbesondere wird das Augenmerk auf die interne Funktionsweise von RDD (Resilient Distributed Datasets) gelegt.

Darauf aufbauend werden die häufig verwendeten APIs Spark SQL, Spark Dataset und Spark DataFrame vertieft.
Über Spark SQL werden Möglichkeiten aufgezeigt, RDDs in ein Data Frame als eine verteilte Tabelle zu wandeln, um darauf SQL-Anfragen durchzuführen. Wir zeigen auf um mit DataFrame aus einer Vielzahl von Datenspeichern (HDFS, JSON, HIve, Parquet u.a.) Daten geladen und gespeichert werden. Optimierungen (Query- und Catalyst-Optimierer) werden aufgezeigt. Mit Spark Datasets, einer Erweiterung der Spark DataFrame API, wird Typsicherheit und eine Schnittstelle für objektorientierte Programme unterstützt.

Diese Schulung verwendet Scala als zentrale Programmiersprache.

Nach dieser Schulung haben Sie das Grundlagenwissen zum Aufbau und Betrieb einer Big Data Analytics Architektur auf Grundlage von Apache Spark praxisnah kennengelernt. Sie wissen Batch- und Streaming Verfahren abzugrenzen, kennen die Schnittstellen und haben Optimierungsmöglichkeiten kennengelernt, um Leistungen zu verbessern.


Voraussetzungen

Die Teilnehmer sollten grundlegende Programmier- und SQL Kenntnisse besitzen.
Die Teilnehmer sollten grundlegende Programmierkenntnisse in Scala besitzen. Optional kann auch eine Einführung in Scala geschult werden.


    Seminarinhalt

    Spark Core
    • Batch and Stream Processing
    • Map-Reduce Model
    • Operators and UDFs
    • Transformations
    • Actions
    • Shuffle operations
    • RDD persistence

    Spark SQL, Dataset and DataFrame API
    • Comparing the 3 APIs
    • DataFrame Operations
    • Dataset API
    • SQL Scalar and Aggregation Functions
    • Integrating the APIs

    Operating Spark
    • Deployment with YARN or Kubernetes
    • Monitoring
    • Running Spark Jobs with the CLI
    • Job Management with Flink CLI


    Zielgruppen

    • Big Data Engineers
    • DevOps und Cloud Spezialisten
    • Administratoren und Systemintegratoren


    Preise und Termine

    Firmenschulung

    Eine Firmenschulung bei Ihnen vor Ort, in einem Schulungszentrum oder virtuell.

    Dauer:
    2 Tage
    Preis ab:
    1.490,00 € zzgl. USt. pro Tag (1.773,10€ inkl. USt.)
    Unterlagen:
    zzgl.
    Verpflegung:
    zzgl.
    Prüfung:
    (Zertifizierung)
    zzgl.

    Software

    Geschult wird grundsätzlich auf der aktuellsten Version, die für einen produktiven Betrieb eingesetzt werden kann. Sofern gewünscht kann auch auf anderen Versionen geschult werden.


    Seminarsprache

    die Seminarsprache ist deutsch, sofern keine andere Angabe. Englisch ist in aller Regel machbar, andere Seminarsprachen sind möglich, fragen Sie bitte an.





    Informationen zur Technologie

    Apache Spark ermöglicht es Unternehmen, Batch- und Streaming-Datenaus mehreren Datenquellen (z.B. Sensoren, Datenbanken, Web und Applikationen) zu verarbeiten und zu analysieren.


    Wir benutzen Cookies um die Nutzerfreundlichkeit der Webseite zu verbessen. Durch Deinen Besuch stimmst Du dem zu.