Möchten Sie mit Ihrem Team teilnehmen? Ab drei Personen profitieren Sie von unseren Gruppenrabatten! Direkt im Shop buchen!

Deklarative Datenpipelines mit Apache Spark und Flowman

In der Big-Data-Welt ist Apache Spark als Werkzeug für skalierbare Datentransformation etabliert. Allerdings ist Spark keine fertige Applikation, sondern eben nur ein Framework, das immer noch einiges an Boilerplate-Code benötigt. Spark-Code ist im Vergleich zu SQL auch etwas schwerer zu verstehen. Das erschwert während der Entwicklung die Kommunikation mit weniger technisch versierten Stakeholdern. Aber genau dann ist eine Abstimmung auf sehr detaillierten Niveau essentiell.

In der Datenbankwelt ist dbt angetreten, um einige dieser Problem zu lösen, sodass die in SQL geschriebene Logik dabei im Mittelpunkt steht. In der Spark-Welt tritt nun das Open-Source-Werkzeug Flowman mit ähnlichen Konzepten an. Ziel ist mithilfe
eines rein deklarativen Ansatzes einen effizienten Entwicklungsworkflow zu etablieren, der ebenfalls den Fokus auf die Business-Logik lenkt und viele weitere wichtige technischen Aspekte wie Schema-Migrationen, Datenqualität und Dokumentation automatisiert. Es deckt auch weitere Themen wie interaktives Debugging, Unit-Tests und Ausführungsmetriken elegant ab.

In dem Vortrag werden die Leitgedankem eines deklarativen Entwicklungsansatzes für Datentransformationen anhand eines konkreten Projektes mit Flowman erläutert und die Vorteile gegenüber einer herkömmlichen Entwicklung von Anwendungen auf Basis von Apache Spark im Data-Engineering-Umfeld herausgestellt

Vorkenntnisse

  • Interesse an skalierbaren und einfach zu wartenden Datenpipelines
  • Grundkonzepte von Apache Spark sind hilfreich, aber nicht notwendig

Lernziele

  • Kennenlernen einer spannenden Alternative zur Softwareentwicklung von skalierbaren Datenpipelines auf Basis von Apache Spark und Flowman

Speaker

 

Dr. Kaya  Kupferschmidt
Dr. Kaya Kupferschmidt hat am Anschluss an seine Promotion in Mathematik schnell seinen Weg in die IT gefunden. Er arbeitet seit über 15 Jahren als freier Entwickler, Berater und Trainer mit Schwerpunkten Big Data und speziell Apache Spark. In mehreren Projekten unterstützte er den Aufbau von Data Lakes, um eine geeignete Datenbasis für analytische Fragestellungen bereitzustellen. Derzeit fokussiert er sich im Rahmen verschiedener Kundenprojekte auf die Weiterentwicklung von Flowman.

Gold-Sponsoren

InterSystems
INNOQ
PRODATO

Silber-Sponsoren

HMS Analytical Software
inovex

Bronze-Sponsor

andrena

data2day-Newsletter

Sie möchten über die data2day
auf dem Laufenden gehalten werden?

 

Anmelden