Kurzbeschreibung
Anhand vieler praktischer Übungen wird eine tiefgehende Einführung in Apache Spark gegeben. Für Gruppen, für die zudem das gesamte Thema Hadoop neu ist, kann außerdem an einem zusätzlichen Schulungstag vorneweg eine Einführung in die Hadoop Plattform gegeben werden.
Der Kurs ist auf eine Dauer von 2 bis 4 Tagen angelegt, je nach gewünschtem Umfang und Tiefe.
Voraussetzungen
Die Teilnehmer sollten grundlegende Programmier- und SQL Kenntnisse besitzen. Die Programmierbeispiele für Apache Spark können wahlweise in Phyton oder Scala umgesetzt werden.
Optional kann auch eine Einführung in Scala geschult werden. Aus unseren Erfahrungen empfehlen wir hierzu einen ganzen Tag zu reservieren. Die alternative Programmierung auf Python ist besonders interessant für Teilnehmer mit Programmierkenntnissen in einer anderen Programmiersprache.
Wir haben die Erfahrungen, dass diese Gruppe sich schnell in Pyhton zurechtfinden. Gerne beraten wir Sie zur Wahl der Programmiersprache auch im Hinblich auf den geplanten Einsatzbereich von Apache Spark.
Seminarinhalt
Theoretischer Teil zu Apache Spark
• Einführung in das Hadoop Ökosystem (HDFS, YARN, HIVE u.a.) (optional ca. 1 Tag).
• Grundverständnis der Spark Cluster Architektur und Integration in Hadoop
Praktisches Arbeiten mit Apache Spark
Einführung in Scala und funktionale Programmierung (optional ca. 1 Tag)
• Grundlagen zu Scala
• Collections API
Spark DataFrame API
• Daten lesen und schreiben
• Daten transformieren und filtern
• Aggregationen und Joins
• User defined Functions
Spark Dataset API (optional)
Spark Structured Streaming (optional)
• Einführung in Kafka
• Streaming vs Batch
• Watermarking
• Output-Modes
Zielgruppen
Diese Schulung richtet sich an Sofware-Entwickler, die mit Spark arbeiten werden. Hierzu gehören unter anderem ETL Entwickler, Data Engineers als auch Data Scientists.
Preise und Termine
Firmenschulung
Eine Firmenschulung bei Ihnen vor Ort, in einem Schulungszentrum oder virtuell.
(Zertifizierung)
benötigte Raumausstattung beim Kunden
Der Kurs behinhaltet sehr viele praktische Übungen und jeder Teilnehmer sollte über einen eigenen Rechner verfügen. Um ein möglichst realistisches Bild zu vermitteln, erhält jeder Teilnehmer ein eigenes Cluster innerhalb der Amazon Cloud. Der Zugriff erfolgt über den Web-Browser. Ein entsprechender Internet-Zugang ist vor Ort zwingend erforderlich.
Seminarsprache
die Seminarsprache ist deutsch, sofern keine andere Angabe. Englisch ist in aller Regel machbar, andere Seminarsprachen sind möglich, fragen Sie bitte an.