Apache Spark- Aufbau von Big Data Pipelines für Data Engineers – Schulung

Agenda-ID: 372

Kurzbeschreibung

Die ist eine vom Dozenten geleitete Schulung für den Aufbau von einer Big Data Pipeline Lösung auf Basis von Apache Spark und der Programmiersprache Scala.

Apache Spark zählt zu den beliebtesten Big Data Frameworks für Prozessierung sehr großer Datenmengen (Big Data) in Form von strukturierten SQL-Datenbankabfragen sowie Batch- und Streaming Verarbeitung. Apache Spark wurde entwickelt, um eine höhere Leistung dank In-Memory-Berechnungen und Optimierungsoptionen bei der Datenverarbeitung im Hadoop-Ökosystem zu erreichen.

Dieser Kurs vermittelt die Grundlagen zum Aufbau und Betrieb von Data Pipiline Strukturen. Das sind Strukturen, um Daten von einer Ursprungsquelle zu einer Zielquelle zu verschieben. Zunächst erfolgt ein grundlegender Einblick auf Prinzipien und Kernkonzepte von Apache Spark. Insbesondere wird das Augenmerk auf die interne Funktionsweise von RDD (Resilient Distributed Datasets) gelegt.

Darauf aufbauend werden die häufig verwendeten APIs Spark SQL, Spark Dataset und Spark DataFrame vertieft.
Über Spark SQL werden Möglichkeiten aufgezeigt, RDDs in ein Data Frame als eine verteilte Tabelle zu wandeln, um darauf SQL-Anfragen durchzuführen. Wir zeigen auf um mit DataFrame aus einer Vielzahl von Datenspeichern (HDFS, JSON, HIve, Parquet u.a.) Daten geladen und gespeichert werden. Optimierungen (Query- und Catalyst-Optimierer) werden aufgezeigt. Mit Spark Datasets, einer Erweiterung der Spark DataFrame API, wird Typsicherheit und eine Schnittstelle für objektorientierte Programme unterstützt.

Diese Schulung verwendet Scala als zentrale Programmiersprache.

Nach dieser Schulung haben Sie das Grundlagenwissen zum Aufbau und Betrieb einer Big Data Analytics Architektur auf Grundlage von Apache Spark praxisnah kennengelernt. Sie wissen Batch- und Streaming Verfahren abzugrenzen, kennen die Schnittstellen und haben Optimierungsmöglichkeiten kennengelernt, um Leistungen zu verbessern.

Voraussetzungen

Die Teilnehmer sollten grundlegende Programmier- und SQL Kenntnisse besitzen.
Die Teilnehmer sollten grundlegende Programmierkenntnisse in Scala besitzen. Optional kann auch eine Einführung in Scala geschult werden.

Seminarinhalt

Spark Core
• Batch and Stream Processing
• Map-Reduce Model
• Operators and UDFs
• Transformations
• Actions
• Shuffle operations
• RDD persistence

Spark SQL, Dataset and DataFrame API
• Comparing the 3 APIs
• DataFrame Operations
• Dataset API
• SQL Scalar and Aggregation Functions
• Integrating the APIs

Operating Spark
• Deployment with YARN or Kubernetes
• Monitoring
• Running Spark Jobs with the CLI
• Job Management with Flink CLI

Zielgruppen

• Big Data Engineers
• DevOps und Cloud Spezialisten
• Administratoren und Systemintegratoren

Preise und Termine

Firmenschulung

Eine Firmenschulung bei Ihnen vor Ort, in einem Schulungszentrum oder virtuell.

Dauer:

2 Tage

Preis ab:

1.490,00 € zzgl. USt. pro Tag (1.773,10€ inkl. USt.)

Unterlagen:

zzgl.

Verpflegung:

zzgl.

Prüfung:
(Zertifizierung)

zzgl.

Software

Geschult wird grundsätzlich auf der aktuellsten Version, die für einen produktiven Betrieb eingesetzt werden kann. Sofern gewünscht kann auch auf anderen Versionen geschult werden.

Seminarsprache

die Seminarsprache ist deutsch, sofern keine andere Angabe. Englisch ist in aller Regel machbar, andere Seminarsprachen sind möglich, fragen Sie bitte an.

Apache Spark- Aufbau von Big Data Pipelines für Data Engineers - Schulung (2 Tage)

Apache Spark- Building Big Data Pipelines for Data Engineers

Kurzbeschreibung

Voraussetzungen

Seminarinhalt

Zielgruppen

Preise und Termine

Firmenschulung

Software

Seminarsprache

Anfrage/Angebot zu dieser Schulung unverbindlich einholen

Verwandte Schulungen