Apache Spark mit PySpark für Data Scientists - Schulung (2 Tage)

Apache Spark with PySpark for data scientists

Kurzbeschreibung

In dieser 2-tägigen Schulung lernen Data Scientists Big Data Analysen und Machine Learning auf Apache Spark mit PySpark kennen. Anhand von Beispieldaten und spezifisichen Fragestellungen werden unterschiedliche Machine Learning Verfahren erläutert und in der Umgebung praktisch durchgespielt. Obgleich praktische Beispiele und Übungen im Mittelpunkt stehen, werden Theoretisches und Konzeptionelles eingestreut, um Seminarteilnehmern ein besseres Bild vom Großen Ganzen aus dem Bereich „Data Science“ zu geben.

Python ist im Bereich ML und Data Science eine zentrale Programmiersprache. Mit PySpark wurde eine Schnittstelle geschaffen, die es ermöglicht, Apache Spark Anwendungen mit Python zu programmieren.
Geschult wird auf separaten pySpark-Schulungsclustern, welche jeweils als virtuelle Maschine zur Verfügung gestellt werden. Spark Architektur, Datenstrukturen sowie zentrale Komponenten aus dem Hadoop Ökosystem sind Bestandteil dieses pySpark Systems und werden im Rahmen dieser Schulung zu Beginn erläutert. Darauf aufbauend werden Programmiermöglichkeiten mit PySpark an Hand von Übungen praktisch geschult. Im dritten Teil werden typische Methoden der Datenanalyse und des Machine Learning über den gesamten Data Science Prozess durchgespielt. Alle anlaytischen Verfahren werden anhand von Beispielen mit echten, öffentlich verfügbaren Daten geschult. Auf diese Weise erhalten die Schulungsteilnehmer neben theoretischen Einblicken vor allem auch ein praktisches Gefühl über Eigenheiten der Datensätze und wie diese für das Erzielen guter Resultate zu berücksichtigen sind.
Praktische Erfahrungen des Trainers aus seinen Data Science Projekten und das Weitergeben von best-practice Erfahrungen und praktischen Tipps unterstreichen den praxisorientierten Bezug dieser Weiterbildung.

Je nach Erfahrungen kann diese Schulung für Schulungsteilnehmer mit fortgeschrittenen Datenanalyse Kenntnissen oder als Einführung in die maschinelle Datenanalyse ausgestaltet werden.


Voraussetzungen

• Grundlegende Programmier- und SQL Kenntnisse
• Erfahrungen in der Programmiersprache Python sind vorteilhaft aber nicht zwingend.


    Seminarinhalt

    Apache Spark für Data Science
    •Grundlagen der Spark Architektur
    •Überblick über das Hadoop Ökosystem (HDFS, YARN, Hive, …)
    •Vorgehensmodell bei Data Science und ML Projekten
    •Regressionsmodelle
    •Klassifikationsmodelle

    praktische PySpark Grundlagen
    •Grundlagen des PySpark DataFrame API
    •Daten lesen und schreiben
    •Daten transformieren und filtern
    •Aggregationen und Joins
    •User Defined Functions

    praktisches Machine Learning mit PySpark
    •Grundlagen der PySpark ML API
    •Feature Extraktion und Transformation
    •Visualisierung
    •Regressionsanalysen
    •Klassifikation
    •Spark ML Pipelines


    Zielgruppen

    • Data Scientists auf Open Source Technologien
    • Personen, die sich mit der Datenauswertung und Machine Learning auf der Hadoop Plattform und Apache Spark beschäftigen.


    Preise und Termine

    Firmenschulung

    Eine Firmenschulung bei Ihnen vor Ort, in einem Schulungszentrum oder virtuell.

    Dauer:
    2 Tage
    Preis ab:
    1.495,00 € zzgl. USt. pro Tag (1.779,05€ inkl. USt.)
    Unterlagen:
    zzgl.
    Verpflegung:
    zzgl.
    Prüfung:
    (Zertifizierung)
    zzgl.

    Software

    • Apache Spark ist eine Open Source Software für verteilte Rechenleistung (Cluster) zur Analyse großer Datenmengen aus unterschiedlichen Quellen für zahlreiche Big-Data-Analysen. Es bietet Schnittstellen für Java, Scala, Python und R Programmierung, einen umfangreichen Satz an Bibliotheken, einschließlich Stream-Verarbeitung, maschinelles Lernen und Graphenanalyse.
    • Apache PySpark ist eine Schnittstelle für Apache Spark. Sie ermöglicht Die Programmierung von Spark-Anwendungen in Python.


    benötigte Raumausstattung beim Kunden

    Da der Kurs sehr viele praktische Übungen beinhaltet, sollten die Teilnehmer über eigene Rechner verfügen. Um ein möglichst realistisches Erlebnis zu ermöglichen, erhält jeder Teilnehmer ein eigenes kleines Cluster aus der Cloud. Der Zugriff erfolgt über einen Web-Browser. Vor Ort ist ein Internet-Zugang zwingend erforderlich.


    Seminarsprache

    die Seminarsprache ist deutsch, sofern keine andere Angabe. Englisch ist in aller Regel machbar, andere Seminarsprachen sind möglich, fragen Sie bitte an.


    Wir benutzen Cookies um die Nutzerfreundlichkeit der Webseite zu verbessen. Durch Deinen Besuch stimmst Du dem zu.