Zurück

Machine Learning und Datenanalyse mit PySpark

Apache Spark hat sich im Big-Data-Ökosystem als Standard etabliert. Spark eignet sich hervorragend sowohl zur Datenaufbereitung als auch für klassisches Machine Learning.

Anhand eines konkreten Fallbeispiels erlernen die Teilnehmer sowohl Datenaufbereitung und -integration unterschiedlicher Quellen als auch die Grundlagen von Machine Learning. Im Workshop erhalten die Teilnehmer einen Grundstock an Hands-on-Erfahrung mit Apache Spark, der danach schnell ausgebaut werden kann.

Die Schulung wird auf Ressourcen in der Amazon Cloud (AWS) zurückgreifen. Somit verfügen alle Teilnehmer unabhängig von ihrem Notebook über ausreichend Rechenkapazität. Die Beispiele und Übungen werden alle als Jupyter Notebooks zur Verfügung gestellt, es wird also primär im Browser gearbeitet.

Vorkenntnisse

Praktische Programmiererfahrung. In der Schulung wird Python verwendet, aber auch bei Nichtkenntnis finden sich erfahrungsgemäß Teilnehmer in die Sprache sehr schnell ein.

Lernziele

• Im Workshop lernen die Teilnehmer die grundlegende Funktionsweise von Apache Spark.
• Mit PySpark und DataFrames lernen sie einfache Transformationen sowie Filtern und Joins.
• Anhand eines frei verfügbaren Datensatzes lernen die Teilnehmer die Konzepte des Machine Learning.
• Mit PySpark werden schließlich auch Pipelines für aufeinander aufbauende Schritte verwendet.

Agenda

ab 8.30 Uhr: Registrierung und Begrüßungskaffee

9.30 Uhr: Beginn

9.30 - 9.45 Uhr: Organisation und Umgebung

9.45 - 10.00 Uhr: Spark Kurzvorstellung

10.00 - 11.00 Uhr: Spark DataFrame API (hands on training)

Loading Data into Apache Spark
Simple DataFrame Operations (Selects, ...)

11.00 - 11:15 Uhr: Kaffeepause

11.15 - 12.30 Uhr: Data Engineering

Extracting records from different file types
Storing data efficiently as files

12.30 - 13.30 Uhr: Mittagspause

13.30 - 14.00 Uhr: Machine Learning Introduction

Linear Regression
Model Validation

14.00 - 15.30 Uhr: ML Example

Presenting the example
Inspecting and preparing the data
Building and Training ML Pipelines
Prediction using Pipelines

15.30 - 15.45 Uhr: Kaffeepause

15.45 - 16.30 Uhr: Refining the example

Integrating multiple sources
Model Evaluation

ca. 17.00 Uhr Ende

Technische Anforderungen

AWS Cluster: Um die Schulung in einer realistischen Umgebung durchführen zu können, ohne dass die Teilnehmer über entsprechend ausgestattete Rechner verfügen, werden alle Übungen in der AWS Cloud durchgeführt. Zusätzlich zu den üblichen Schulungsvoraussetzungen ist ein wenig Vorarbeit zu leisten, um auf die Rechenkapazität in AWS zugreifen zu können. Die Teilnehmerinnern und Teilnehmer müssen hierzu die folgenden Punkte beachten:

Jeder Teilnehmer muss über einen eigenen Rechner verfügen
Jeder Rechner braucht einen Internetzugang
Jeder Teilnehmer benötigt entweder Chrome, Firefox oder Edge
Um Probleme zu vermeiden, empfehle ich am besten zwei der Browser installiert zu haben. Zudem stellen all zu restriktive Unternehmens-Proxies und Firewalls häufig ein Problem dar. Deshalb wäre es gut, wenn die Teilnehmer ohne Unternehmens-VPN in das Internet kommen. Zur Not können wir mit SSH (bei MacOS und Linux direkt mit dabei, unter Windows kann ich Putty empfehlen) einen lokalen Tunnel aufbauen, aber das ist immer ein wenig umständlich. Eine Anleitung hierfür für Mac, Windows und Linux werde ich als PDF im Workshop zur Verfügung stellen.

Falls Teilnehmer ein Firmengerät verwenden, ist es wichtig, vorab zu prüfen, ob eines der folgenden, gelegentlich vorkommenden Probleme auftreten könnte:

Workshop-Teilnehmer hat keine Administrator-Rechte
Corporate Laptops mit übermäßig penibler Sicherheitssoftware
Gesetzte Corporate-Proxys, über die man in der Firma kommunizieren muss, die aber in einer anderen Umgebung entsprechend nicht erreicht werden

Speaker

Kaya Kupferschmidt arbeitet seit über zehn Jahren als freier Entwickler, Berater und Trainer mit Schwerpunkt Big Data und speziell Hadoop-Ökosystem. Er verfügt über vielfältige Erfahrungen unter anderem im Online-Advertising, dem Energiesektor bis hin zu unternehmensweiten Data Lakes in großen Finanzinstituten. Derzeit fokussiert er sich auf Apache Spark und den Themenkomplex Machine Learning.

Jetzt Tickets sichern