Kurzbeschreibung
Die ist eine vom Dozenten geleitete Schulung für den Aufbau von einer Big Data Pipeline Lösung auf Basis von Apache Spark und der Programmiersprache Scala.
Apache Spark zählt zu den beliebtesten Big Data Frameworks für Prozessierung sehr großer Datenmengen (Big Data) in Form von strukturierten SQL-Datenbankabfragen sowie Batch- und Streaming Verarbeitung. Apache Spark wurde entwickelt, um eine höhere Leistung dank In-Memory-Berechnungen und Optimierungsoptionen bei der Datenverarbeitung im Hadoop-Ökosystem zu erreichen.
Dieser Kurs vermittelt die Grundlagen zum Aufbau und Betrieb von Data Pipiline Strukturen. Das sind Strukturen, um Daten von einer Ursprungsquelle zu einer Zielquelle zu verschieben. Zunächst erfolgt ein grundlegender Einblick auf Prinzipien und Kernkonzepte von Apache Spark. Insbesondere wird das Augenmerk auf die interne Funktionsweise von RDD (Resilient Distributed Datasets) gelegt.
Darauf aufbauend werden die häufig verwendeten APIs Spark SQL, Spark Dataset und Spark DataFrame vertieft.
Über Spark SQL werden Möglichkeiten aufgezeigt, RDDs in ein Data Frame als eine verteilte Tabelle zu wandeln, um darauf SQL-Anfragen durchzuführen. Wir zeigen auf um mit DataFrame aus einer Vielzahl von Datenspeichern (HDFS, JSON, HIve, Parquet u.a.) Daten geladen und gespeichert werden. Optimierungen (Query- und Catalyst-Optimierer) werden aufgezeigt. Mit Spark Datasets, einer Erweiterung der Spark DataFrame API, wird Typsicherheit und eine Schnittstelle für objektorientierte Programme unterstützt.
Diese Schulung verwendet Scala als zentrale Programmiersprache.
Nach dieser Schulung haben Sie das Grundlagenwissen zum Aufbau und Betrieb einer Big Data Analytics Architektur auf Grundlage von Apache Spark praxisnah kennengelernt. Sie wissen Batch- und Streaming Verfahren abzugrenzen, kennen die Schnittstellen und haben Optimierungsmöglichkeiten kennengelernt, um Leistungen zu verbessern.
Voraussetzungen
Die Teilnehmer sollten grundlegende Programmier- und SQL Kenntnisse besitzen.
Die Teilnehmer sollten grundlegende Programmierkenntnisse in Scala besitzen. Optional kann auch eine Einführung in Scala geschult werden.
Seminarinhalt
Spark Core
• Batch and Stream Processing
• Map-Reduce Model
• Operators and UDFs
• Transformations
• Actions
• Shuffle operations
• RDD persistence
Spark SQL, Dataset and DataFrame API
• Comparing the 3 APIs
• DataFrame Operations
• Dataset API
• SQL Scalar and Aggregation Functions
• Integrating the APIs
Operating Spark
• Deployment with YARN or Kubernetes
• Monitoring
• Running Spark Jobs with the CLI
• Job Management with Flink CLI
Zielgruppen
• Big Data Engineers
• DevOps und Cloud Spezialisten
• Administratoren und Systemintegratoren
Preise und Termine
Firmenschulung
Eine Firmenschulung bei Ihnen vor Ort, in einem Schulungszentrum oder virtuell.
(Zertifizierung)
Software
Geschult wird grundsätzlich auf der aktuellsten Version, die für einen produktiven Betrieb eingesetzt werden kann. Sofern gewünscht kann auch auf anderen Versionen geschult werden.
Seminarsprache
die Seminarsprache ist deutsch, sofern keine andere Angabe. Englisch ist in aller Regel machbar, andere Seminarsprachen sind möglich, fragen Sie bitte an.