Möchten Sie mit Ihrem Team teilnehmen? Ab drei Personen profitieren Sie von unseren Gruppenrabatten! Direkt im Shop buchen!

ETL mit Apache Spark

Die meisten Big Data-Projekte benötigen irgendwann Werkzeuge zum Befüllen des Data Lakes und zur Aufbereitung der Daten für Auswertungszwecke. Spark ist eine mächtige Verarbeitungsmaschinerie, die das Grundgerüst für ein flexibles ETL-Werkzeug liefert. Durch einen leichtgewichtigen Überbau kann Spark als ETL-Werkzeug flexibel verwendet werden, so dass alle Transformationsschritte in einer rein deklarativen DSL spezifiziert werden, während der Unterbau selbst Scala nutzt.

Dieser Ansatz trennt zum einen den Programmfluss von der fachlichen Transformationslogik und ermöglicht zudem auch Mitarbeitern mit starkem fachlichen Fokus neue ETL-Jobs aufzusetzen. Das Werkzeug ist nunmehr Open Source.

Vorkenntnisse

Interesse an den Themen ETL und Spark im Kontext mit Data Lakes.

Lernziele

Es wird ein Ansatz dargestellt, der Spark als ETL-Werkzeug verwendet, durch die Spezifikation der Transformationen in YAML allerdings nicht von jedem Mitarbeiter Programmierkenntnisse mit Spark abverlangt.

Speaker

 

Kaya Kupferschmidt
Kaya Kupferschmidt arbeitet seit über zehn Jahren als freier Entwickler, Berater und Trainer mit Schwerpunkt Big Data im Hadoop-Ökosystem. Er verfügt über vielfältige Erfahrungen unter anderem im Online-Advertising, dem Energiesektor bis hin zu unternehmensweiten Data Lakes in großen Finanzinstituten. Derzeit fokussiert er sich auf Apache Spark und den Themenkomplex Machine Learning.

Gold-Sponsoren

InterSystems
INNOQ
PRODATO

Silber-Sponsoren

HMS Analytical Software
inovex

Bronze-Sponsor

andrena

data2day-Newsletter

Sie möchten über die data2day
auf dem Laufenden gehalten werden?

 

Anmelden