Zurück

Erfahrungen aus der Migration auf alternative, pyspark-API kompatible Engines wie duckdb

Der Traum eines jeden Platform Owners ist es, durch eine zentral gesteuerte Migration – ohne Änderungen im User Code – großflächige Kostensenkungen oder Performanceverbesserungen zu erwirken.

Engines wie duckdb oder Libraries wie sqlframe bieten eine Kompatibilitätsschicht an, um existierenden pyspark-Code ohne Spark auszuführen und den Compute auf alternativen Query Engines zu migrieren, die für kleine bis mittlere Datensets eine um das X-fache gestiegene Performance zu geringeren Kosten versprechen.

In dieser Session möchte ich – als Owner einer globalen Daten & AI Platform – einen Überblick über das aktuelle Angebot im Open-Source-Bereich geben und unsere Erfolge und Misserfolge teilen.

Vorkenntnisse

Erfahrung im Data Engineering mit pyspark, Python, Platform Engineering und Lakehouse-Architekturen ist von Vorteil.

Lernziele

Teilnehmende erhalten

Überblick über verschiedene Open Source Query Engines
Überblick über universelle DataFrame APIs und deren Innenleben
Erfahrungen aus der Praxis bezüglich Kosten und Performance von migriertem pyspark-Code zu alternativen Query Engines und Kompatibilitätslayern.

Speaker

Nicolas Renkamp ist der Global Head of Platform Product Portfolio in der Merck Data & AI Organization und verantwortet die Core Datenplattformen von Merck.