Machine Learning und Datenanalyse mit PySpark

Apache Spark hat sich im Big-Data-Ökosystem als Standard etabliert. Spark eignet sich hervorragend sowohl zur Datenaufbereitung als auch für klassisches Machine Learning.

Anhand eines konkreten Fallbeispiels erlernen die Teilnehmer sowohl Datenaufbereitung und -integration unterschiedlicher Quellen als auch die Grundlagen von Machine Learning. Im Workshop erhalten die Teilnehmer einen Grundstock an Hands-on-Erfahrung mit Apache Spark, der danach schnell ausgebaut werden kann.

Die Schulung wird auf Ressourcen in der Amazon Cloud (AWS) zurückgreifen. Somit verfügen alle Teilnehmer unabhängig von ihrem Notebook über ausreichend Rechenkapazität. Die Beispiele und Übungen werden alle als Jupyter Notebooks zur Verfügung gestellt, es wird also primär im Browser gearbeitet.

Vorkenntnisse

Praktische Programmiererfahrung. In der Schulung wird Python verwendet, aber auch bei Nichtkenntnis finden sich erfahrungsgemäß Teilnehmer in die Sprache sehr schnell ein.

Lernziele

• Im Workshop lernen die Teilnehmer die grundlegende Funktionsweise von Apache Spark.
• Mit PySpark und DataFrames lernen sie einfache Transformationen sowie Filtern und Joins.
• Anhand eines frei verfügbaren Datensatzes lernen die Teilnehmer die Konzepte des Machine Learning.
• Mit PySpark werden schließlich auch Pipelines für aufeinander aufbauende Schritte verwendet.

 

Agenda

ab 8.30 Uhr: Registrierung und Begrüßungskaffee

9.30 Uhr: Beginn

9.30 - 9.45 Uhr: Organisation und Umgebung

9.45 - 10.00 Uhr: Spark Kurzvorstellung

10.00 - 11.00 Uhr: Spark DataFrame API (hands on training)

  • Loading Data into Apache Spark
  • Simple DataFrame Operations (Selects, ...)

11.00 - 11:15 Uhr: Kaffeepause

11.15 - 12.30 Uhr: Data Engineering

  • Extracting records from different file types
  • Storing data efficiently as files

12.30 - 13.30 Uhr: Mittagspause

13.30 - 14.00 Uhr: Machine Learning Introduction

  • Linear Regression
  • Model Validation

14.00 - 15.30 Uhr: ML Example

  • Presenting the example
  • Inspecting and preparing the data
  • Building and Training ML Pipelines
  • Prediction using Pipelines

15.30 - 15.45 Uhr: Kaffeepause

15.45 - 16.30 Uhr: Refining the example

  • Integrating multiple sources
  • Model Evaluation

ca. 17.00 Uhr Ende

 

Technische Anforderungen:

AWS Cluster: Um die Schulung in einer realistischen Umgebung durchführen zu können, ohne dass die Teilnehmer über entsprechend ausgestattete Rechner verfügen, werden alle Übungen in der AWS Cloud durchgeführt. Zusätzlich zu den üblichen Schulungsvoraussetzungen ist ein wenig Vorarbeit zu leisten, um auf die Rechenkapazität in AWS zugreifen zu können. Die Teilnehmerinnern und Teilnehmer müssen hierzu die folgenden Punkte beachten:
  • Jeder Teilnehmer muss über einen eigenen Rechner verfügen
  • Jeder Rechner braucht einen Internetzugang
  • Jeder Teilnehmer benötigt entweder Chrome, Firefox oder Edge
  • Um Probleme zu vermeiden, empfehle ich am besten zwei der Browser installiert zu haben. Zudem stellen all zu restriktive Unternehmens-Proxies und Firewalls häufig ein Problem dar. Deshalb wäre es gut, wenn die Teilnehmer ohne Unternehmens-VPN in das Internet kommen. Zur Not können wir mit SSH (bei MacOS und Linux direkt mit dabei, unter Windows kann ich Putty empfehlen) einen lokalen Tunnel aufbauen, aber das ist immer ein wenig umständlich. Eine Anleitung hierfür für Mac, Windows und Linux werde ich als PDF im Workshop zur Verfügung stellen.
Falls Teilnehmer ein Firmengerät verwenden, ist es wichtig, vorab zu prüfen, ob eines der folgenden, gelegentlich vorkommenden Probleme auftreten könnte:
  • Workshop-Teilnehmer hat keine Administrator-Rechte
  • Corporate Laptops mit übermäßig penibler Sicherheitssoftware
  • Gesetzte Corporate-Proxys, über die man in der Firma kommunizieren muss, die aber in einer anderen Umgebung entsprechend nicht erreicht werden

Speaker

 

Kaya Kupferschmidt
Kaya Kupferschmidt arbeitet seit über zehn Jahren als freier Entwickler, Berater und Trainer mit Schwerpunkt Big Data und speziell Hadoop-Ökosystem. Er verfügt über vielfältige Erfahrungen unter anderem im Online-Advertising, dem Energiesektor bis hin zu unternehmensweiten Data Lakes in großen Finanzinstituten. Derzeit fokussiert er sich auf Apache Spark und den Themenkomplex Machine Learning.

Gold-Sponsoren

HMS
Structr

Silber-Sponsoren

codecentric
Phytec

Bronze-Sponsor

incontext.technology GmbH

data2day-Newsletter

Sie möchten über die data2day
auf dem Laufenden gehalten werden?

 

Anmelden