Zurück

ETL mit Apache Spark

Die meisten Big Data-Projekte benötigen irgendwann Werkzeuge zum Befüllen des Data Lakes und zur Aufbereitung der Daten für Auswertungszwecke. Spark ist eine mächtige Verarbeitungsmaschinerie, die das Grundgerüst für ein flexibles ETL-Werkzeug liefert. Durch einen leichtgewichtigen Überbau kann Spark als ETL-Werkzeug flexibel verwendet werden, so dass alle Transformationsschritte in einer rein deklarativen DSL spezifiziert werden, während der Unterbau selbst Scala nutzt.

Dieser Ansatz trennt zum einen den Programmfluss von der fachlichen Transformationslogik und ermöglicht zudem auch Mitarbeitern mit starkem fachlichen Fokus neue ETL-Jobs aufzusetzen. Das Werkzeug ist nunmehr Open Source.

Vorkenntnisse

Interesse an den Themen ETL und Spark im Kontext mit Data Lakes.

Lernziele

Es wird ein Ansatz dargestellt, der Spark als ETL-Werkzeug verwendet, durch die Spezifikation der Transformationen in YAML allerdings nicht von jedem Mitarbeiter Programmierkenntnisse mit Spark abverlangt.

Speaker

Kaya Kupferschmidt arbeitet seit über zehn Jahren als freier Entwickler, Berater und Trainer mit Schwerpunkt Big Data im Hadoop-Ökosystem. Er verfügt über vielfältige Erfahrungen unter anderem im Online-Advertising, dem Energiesektor bis hin zu unternehmensweiten Data Lakes in großen Finanzinstituten. Derzeit fokussiert er sich auf Apache Spark und den Themenkomplex Machine Learning.

Jetzt Tickets sichern

Gold-Sponsoren

Silber-Sponsoren

Bronze-Sponsor

JETZT SPONSOR WERDEN

data2day-Newsletter

Sie möchten über die data2day
auf dem Laufenden gehalten werden?

Anmelden