Datenanalyse mit PySpark

Apache Spark hat sich im Big-Data-Ökosystem als Standard etabliert. Durch das wachsende Arsenal an Verfahren aus dem Bereich Machine Learning eignet es sich sehr gut, um auch aus großen Datenmengen valide Modelle zu erzeugen. Zudem ist durch die Anbindung der modernen und universellen Skriptsprache Python die Einstiegshürde gerade für (werdende) Data Scientists deutlich gesunken.

Der Workshop ist ein Crashkurs sowohl für Spark als auch für Machine Learning. Anhand von Beispielen und Übungen erhalten die Teilnehmer einen Grundstock an Hands-on-Erfahrung, der danach schnell ausgebaut werden kann.

Vorkenntnisse

Praktische Programmiererfahrung. In der Schulung wird Python verwendet, aber auch bei Nichtkenntnis finden sich erfahrungsgemäß Teilnehmer in die Sprache sehr schnell ein.

Lernziele

* Im Workshop lernen die Teilnehmer die grundlegende Funktionsweise von Apache Spark.
* Mit PySpark und DataFrames lernen sie einfache Transformationen sowie Filtern und Joins.
* Anhand eines frei verfügbaren Datensatzes lernen die Teilnehmer die Konzepte des Machine Learning.
* Mit PySpark werden schließlich auch Pipelines für aufeinanderaufbauende Schritte verwendet.

 

Speaker

 

Kaya Kupferschmidt
Kaya Kupferschmidt arbeitet seit über zehn Jahren als freier Entwickler, Berater und Trainer mit Schwerpunkt Big Data und speziell Hadoop-Ökosystem. In mehreren Projekten unterstützte er den Aufbau von Data Lakes, um eine geeignete Datenbasis für analytische Fragestellungen bereitzustellen. Derzeit fokussiert er sich auf Apache Spark und den Themenkomplex Machine Learning.

Gold-Sponsoren

HMS
Structr

Silber-Sponsoren

codecentric
Phytec

Bronze-Sponsor

incontext.technology GmbH

data2day-Newsletter

Sie möchten über die data2day
auf dem Laufenden gehalten werden?

 

Anmelden