Apache Spark mit PySpark – Performance Optimierung und Troubleshooting für Data Scientist Produktivbetrieb – Advanced Administration – Schulung

Agenda-ID: 336

Kurzbeschreibung

Die ersten Erfahrungen wurden mit einem Apache Spark mit PySpark Big Data Projekt gesammelt. Das Projekt hat einen gewissen Entwicklungsstand und Komplexität erreicht.

Nun stehen die Entwickler vor der Herausforderung, einen stabilen Produktivbetrieb dieser Big Data Plattform zu gewährleisten. Deutlich größere Datenmengen werden verarbeitet, als in der Entwicklungsphase. Unerwartete Leistungsprobleme treten auf und Maßnahmen zur Performanceoptimierung werden notwendig. Data Scientist, Entwickler, DevOps Manager und Administratoren der Big Data Plattform suchen Antworten auf die zentrale Frage:

Was kann ich wie beeinflussen, um bestmögliche, performante Ergebnisse mit meiner Big Data Plattform zu erzielen und auf Dauer sicherzustellen?

Es gilt performanceorientierte Konzeption (= performance by design) auf Ebene des Systems, der Datenverarbeitung und der Workloads zu beachten. Es geht um Maßnahmen und Werkzeuge, um die aktuelle Leistungsfähigkeit messbar zu machen, zu analysieren und richtig zu interpretieren. Es gilt Kenntnisse zu Stellschrauben und deren Wirkungsweisen zu vertiefen, um Störungsstellen, Blockaden und Engpässe zu erkennen und abzustellen. Steuerungsfähigkeiten sind notwendig um den Durchsatz aktiv und individuell zu steuern. Es geht um die Befähigung System- und Ressourcennutzung kontinuierlich zu optimieren und situationsbezogen zu justieren, skalieren und zu tunen. Das sind die Themen auf die diese fortgeschrittene Apache PySpark Schulung eingeht.

Ziel dieser IT Weiterbildung ist die Vermittlung von tiefgehendem technischem Fachwissen und best practice Erfahrungen, damit Big Data Teams einen produktiven Betrieb eigener Apache Spark Plattformen sicherstellen und kontinuierlich betreuen können. Die geschulten Big Data Kompetenzen können unterteilt werden in:

• Performance by Design: Konzeptionelle Berücksichtigen von Design Prinzipien beim Aufbau und der Erweiterung der Data Science Plattform auf Apache Spark
• Leistungsmonitoring: Einrichtung eines Kennzahlen bzw. Reporting gestützten Informationssystems zur permanenten Systemüberwachung
• Performanceanalytik: Vertiefende Analyse- und Interpretationsfähigkeiten zu Apache Spark spezifischen Kennzahlen, Benchmarks und Ausführungsplänen
• Troubleshooting: Strukturiertes Vorgehen zur Analyse, Eingrenzung und Problembehebung aufgetretener Störfälle der Spark Big Data Plattform
• Performance Tuning und Erweiterungsmöglichkeiten: institutionalisiertes Analysieren, Optimieren und Skalieren der Leistungsfähigkeit auf Ebene von System, Datenverarbeitung, Datendurchlaufprozessen.

Seminarinhalt

Grundlagen zurArchitektur von Apache Spark Plattformen
• Kompakte Einführung in Apache Spark mit PySpark
• tiefergehendes Verständnis zu Konzepten und Architektur von Spark
• Gegenüberstellung Pandas und PySpark

Werkzeuge zur Systemanalyse und Verarbeitung
• Erzeugung und Analyse von Ausführungsplänen und Statistiken
• Interpretierung und Ableitung von Maßnahmen zur Überwindung von Blockaden
• Interpretierung und Ableitung von Maßnahmen zur Performance Optimierung

Partitionierung für Troubleshooting und Performance Optimierung
• Grundverständnis für Partitionierung in Apached Spark
• Einfluss der Partitionierung auf die Performance
• Möglichkeiten der Einflussnahme auf Partitionierung zur Optimierung

Optimierung von joins und Maßnahmen der Optimierung
• Arten von Spark joins, Funktionsweises und Einsatzzwecke
• Grundverständnis zu Funktionsweisen der joins in Ablaufplänen
• Anwendungsfälle und Möglichkeiten der Einflussnahme zur Optimierung

Spark Optimierung mit Caching und Checkpointing
• Verständnis zu Caching Arten / Checkpointing und Funktionsweisen im Apache Spark Kontext
• Wirkung von Chaching und Checkpointing auf Apache Spark Performance
• Anwendungsfälle und Handlungsoptionen zur Performanceoptimierung

PySpark User Defined Function (UDF)
• Grundverständnis zu UDF als Funktion von Spark SQL
• Erweiterung von Spark mit eigenen Funktionen
• Varianten von UDF ihre Funktionsweise und Limitationen

Optimierung der Spark-Ausführungsumgebung - SparkEnv
• Verständnis und Konfigurationsoptionen zu Apache Spark Execution Environment - SparkEnv
• Überblick über die wichtigsten Konfigurationseigenschaften
• Abweichung von Standardeinstellungen und deren Auswirkung auf Performance
• Best Practice Erfahrungen an Hand ausgewählter Szenarien

Zielgruppen

Diese Schulung richtet sich an Big Data und Data Scientist Teams. Diese Teams können aus den Rollen Big Data Engineers, Big Data Scientists, Entwicklern, Administratoren und DevOps Managern bestehen. Ggf. zählen hierzu auch Machine Learning Spezialisten. Diese Big Data Teams wollen befähigt werden, eine eigene Data Scientist Plattform auf Basis von Apache Spark im Produktivbetrieb zu betreuen. Für die kontinuierliche Administration und Pflege benötigen Sie Apache Spark spezifische Kompetenzen zu Performance by Design, Performancemonitoring, Performanceanalyse, Troubleshooting, Performancetuning, Skalierung und Systemerweiterungen.

Preise und Termine

Holen Sie sich ein konkretes Angebot ein.

Seminarsprache

die Seminarsprache ist deutsch, sofern keine andere Angabe. Englisch ist in aller Regel machbar, andere Seminarsprachen sind möglich, fragen Sie bitte an.

Apache Spark mit PySpark - Performance Optimierung und Troubleshooting für Data Scientist Produktivbetrieb - Advanced Administration - Schulung (3 Tage)

apache spark with pyspark - performance tuning and trouble shooting for data scientists go productive - advanced administration

Kurzbeschreibung

Seminarinhalt

Zielgruppen

Preise und Termine

Seminarsprache

Anfrage/Angebot zu dieser Schulung unverbindlich einholen

Verwandte Schulungen