Kurzbeschreibung
Dies ist eine vom Dozenten geleitete Schulung zur Datenanalyse durch Python und der Programmbibliothek Pandas. Pandas ist die vorherrschende Programmbibliothek, um Analysen aus Datentabellen auf Python Programmierung durchzuführen. Sie erlaubt, mit wenigen Zeilen Code sehr komplexe Datenverarbeitungsschritte zu programmieren. Im Rahmen der Schulung wird viel Wert auf die Vermittlung von Praxiserfahrung und best practice Erfahrungen gelegt. Das Verhältnis der Schulung liegt bei rund 40% Wissensvermittlung und 60% praktische Übungen und geleitetes Ausprobieren.
Im Pandas-Kurs geht es um das Laden, Säubern, Verändern, Zusammenfügen, Verarbeiten und Visualisieren von Datentabellen. Es gibt eine Vielzahl von Plot-Möglichkeiten, um mit wenigen Zeilen Code sehr schöne Visualisierungen von Daten zu erstellen.
Der Kurs enthält insgesamt 7 Übungseinheiten. Bei Hinzubuchung von Numpy kommen weitere 2 Übungseinheiten hinzu.
Empfohlene Kursdauer beträgt grundsätzlich 4 Tage. Eine 3 Tages Schulung ist aber auch mit gewissen Enschränkungen möglich.
Bei Hinzubuchung des Schulungsmoduls Numpy würde ein weiterer Tag hinzukommen.
Voraussetzungen
• Der Python Pandas-Kurs ist ein Kurs, der Grundkenntnisse von Python
und Numpy voraussetzt.
• Wegen der Abhängigkeit zu Numpy wird empfohlen Pandas und Numpy in einem Kurs zu belegen.
Seminarinhalt
Numpy
• Sinnvolles Optionales Schulungsmodul
Das Series Objekt:
• Series Objekt erzeugen. Verschiedene Methoden.
• Series Objekt verhält sich wie ein Numpy-ndarray Objekt in vielerlei Hinsicht.
• Prüfen, ob index-key vorhanden ist.
• Series Object verhält sich ähnlich zu Dict in vielerlei Hinsicht.
Das DataFrame Objekt:
• Erzeugen eines DataFrame Objektes. Die hauptsächlichen Methoden hierfür.
• Spalten hinzufügen / entfernen.
• Row-Selektierung / Slicing.
• df.loc[ ], df.iloc[ ], df.at[ ], df.iat[ ] Selektier-/Slice-Methoden.
• head(), tail(), transpose() Methoden.
• DataFrame-Attribute
• Column-wise, row-wise DataFrame-Methoden
• DataFrame verhält sich wie zweidimensionales Numpy-ndarray in vielerlei Hinsicht.
Daten säubern und ersetzen in einem DataFrame:
• Wie man mit fehlenden Werten im DataFrame umgeht.
• Die replace() Methode
• DataFrames aus csv- oder Excel-Dateien lesen oder solche schreiben.
• String-Operationen auf String-Series
• Über Spalten, Zeilen, Zellen eines DataFrames iterieren.
• Einzelne Spaltennamen, Zeilennamen umbenennen.
• Ein DataFrame nach selbstdefinierter Art sortieren.
• Kovarianzen / Korrelationen paarweiser Spalten berechnen.
SQL-ähnliche Operationen auf DataFrames:
• Das Split-Calculate-Combine Prinzip
• Datensätze zu Series / DataFrame hinzufügen.
• DataFrames mit SQL-Logik zusammenfügen.
Datenvisualisierung:
• Die Plot Methode von DataFrame. Einige Beispiele.
• Das seaborn Plotting-Paket. Einige Beispiele.
Zielgruppen
• Er ist konzipiert für Analysten und BI-Fachkräfte, die sehr viel mit Datentabellen arbeiten.
• Pandas Python Kenntnisse sind ein Muss für jeden Data-Scientist!
Preise und Termine
Software
Geschult wird grundsätzlich auf der aktuellesten Version von pandas, die für einen produktiven Betrieb eingesetzt werden kann. Sofern gewünscht kann auch auf anderen Versionen geschult werden.
benötigte Raumausstattung beim Kunden
Technologieausstattung für das Präsenztraining
• aktueller internetfähiger Büro PC / Laptop pro Schulungsteilnehmer
• Moderner Web Browser
• Leistungsfähiges WLAN / LAN Internetverbindung
Technologieausstattung des Teilnehmers bei Online Seminar als Virtual Classroom Training
• aktueller internetfähiger Büro PC / Laptop
• Moderner Web Browser
• gängiger Videokonferenz-Client
• Webcam
• Mikrofon
Seminarsprache
die Seminarsprache ist deutsch, sofern keine andere Angabe. Englisch ist in aller Regel machbar, andere Seminarsprachen sind möglich, fragen Sie bitte an.