Zurück

Wenn es wirklich Big wird – Datenanalyse skalieren mit PySpark

Massive Datenströme aus industriellen IoT-Anwendungen führen schnell zu echten Big-Data-Problemen, deren Lösung verteiltes Rechnen auf einem Cluster erfordert. Wir stellen das Open-Source-Framework Apache Spark vor, um Datenanalyse- und Machine Learning-Workflows auf einem Cluster skalierbar zu machen.

Der Workshop steht unter dem Motto: Nicht reden, sondern machen! Wir stellen die wichtigsten Konzepte vor und ermöglichen den Teilnehmern Programmiererfahrung anhand von Praxisaufgaben zu sammeln. Wir arbeiten in der Cloud. Nur ein Laptop mit aktuellem Internetbrowser ist mitzubringen.

Vorkenntnisse

* Erste Erfahrungen mit Fragestellungen im Data-Science-Bereich
* Da der Workshop einen großen Anteil an interaktiven Beispielen hat, sind Programmierkenntnisse erforderlich (Python wird empfohlen)
* Für die Durchführung des Kurses gibt es keine besonderen technischen Voraussetzungen. Wir stellen eine digitale Laborumgebung in der Cloud bereit.

Lernziele

* Teilnehmerinnen und Teilnehmer erhalten einen breiten Einblick in Spark, lernen es, Anwendungsfälle zu erkennen und die Pros und Contras des Frameworks abzuschätzen.
* Es werden verschiedene praxisnahe Anwendungen vorgestellt und mit unserer Unterstützung interaktiv in IPython Notebooks bearbeitet.
* Wir erleichtern den Einstieg in die Grundlagen von Spark (RDDs, Transformations & Actions etc.) und führen vom Datenimport bis hin zu erster Datenanalysen (mit Spark SQL und DataFrames) mit Beispielen und Übungen.

Agenda

Processing Big Data

What strategies do we have available to compute efficiently with increasing amounts of data? What is a cluster, and when do we need one?

Introducing Apache Spark

What is Spark all about, and what are its components?

Spark Fundamentals

An introduction to the fundamental concepts as well as core data structures and operations.

Submitting Spark Jobs

How to submit jobs to a Spark cluster for batch processing.

Structured Data

Working with tabular data in Spark.

Streaming Data

Processing large-scale live data streams.

Zeitplan
9:30: Beginn
12:00 - 13:15: Mittagspause
17:00: Ende

Technische Anforderungen

Es wird eine stabile Internetverbindung, ein moderner Browser, Zoom, ein Mikro und eine Webcam benötigt.

Speaker

Dr. Christian Staudt unterstützt als Freelance Data Scientist Auftraggeber bei Herausforderungen rund um Data Mining, Big Data und Machine Learning. Neben der Projektarbeit entwickelt er mit der Point 8 GmbH Trainings und coacht Teams in Sachen Methodik und Werkzeuge der Datenanalyse, die er schon während seiner Forschungstätigkeiten in der Informatik nutzte.

Dr. Julian von der Ecken ist Data Scientist und Trainer bei der Point 8 GmbH. Durch seine Arbeit sowohl im Bereich von industriellen Kundenprojekten im Anlagen- und Maschinenbau als auch in der Schwerindustrie kann er auf ein breites Erfahrungsspektrum verschiedener User Cases zurückgreifen. Für Point 8 entwickelt und gibt er zudem Trainings für verschiedene Zielgruppen.

Jetzt Tickets sichern