Kurzbeschreibung
Dies ist eine vom Dozenten geleitetete Grundlagenschulung. Geschult wird die Erstellung von Datenpipelines für die Datenverarbeitung auf der Technologie von Apache Beam. Beam ist ein Set an Open Source Softwaredevelopment-Kits (SDKs) für Data Processing in verteilten Systemen.
Das Besondere bei Apache Beam ist sein höheres Abstraktionsniveau. Business-Logiken können damit von technischen Ausführungsumgebungen (Big-Data Engines z.B. Spark) entkoppelt werden. Geschult wird Datenverarbeitungspipelines über die Apache Beam API zu konstruieren. Neben Batch-Prozessen schließt dies auch Streaming-Prozesse ein. Darüber hinaus werden die technischen Konzepte und Funktionsprinzipien von Apache Beam erklärt. Demonstriert wird, wie Beam die erstellte Pipeline in individuelle Teile herunterbricht und Sie in eine engineunabhängige Form überführt. Anschließend wird aufgezeigt, wie entwickelte Pipelines an einen "Runner" übertragen werden, der sie aufbereitet, um Sie auf ausgewhälten Big Data Engines auszuführen. Mögliche Verarbeitungsengines sind Spark, Flink, Samza, GCD und andere.
Die Schulung zeichnet sich durch große Praxisnähe aus. Ziel ist es, Teilnehmer und das Team ggf. mit unterschiedlichen Rollen (z.B. Rollen zu Business, Data Science aber vor Allem mit technischem Schwerpunkt als DevOps und Entwickler) auf einen einheitlichen Wissenstand zu setzen und sie zu befähigen Apache Beam (protoypisch) praktisch einzusetzen, eigene Processing Piplines zu erstellen, deren Ausführung zu erproben und Erfahrungen zu intensivieren. Aus diesem Grund sind umfangreiche praktische Anteile in Form von Übungen oder mittels Live-Coding elementarer Bestandteil der Schulungen.
Voraussetzungen
• Erfahrungen in der Progammiersprache Java
Seminarinhalt
Apache Beam Grundlagen
• Beam SDKs
• Pipelines, Transformations and Collections
• User Defined Functions (UDF)
• Aggregations
• Batch vs. Streaming
• Beam Runner, Capability Matrix
• Designing, Creating andTesting Beam Pipelines
Beam Streaming Pipelines
• Beams Windowing
• Watermarks and Triggering
• State and Timers
Zielgruppen
Diese Schulung richtet sich an technisch versierte Business Spezialisten, Big Data Engineers, Software-Entwickler und DevOps von Big Data Infrastrukturen.
Preise und Termine
Software
Geschult wird grundsätzlich auf der aktuellsten Version von Apache Beam, die für einen produktiven Betrieb eingesetzt werden kann. Sofern gewünscht kann auch auf anderen Versionen geschult werden.
Seminarsprache
die Seminarsprache ist deutsch, sofern keine andere Angabe. Englisch ist in aller Regel machbar, andere Seminarsprachen sind möglich, fragen Sie bitte an.