Erfahrungen aus der Migration auf alternative, pyspark-API kompatible Engines wie duckdb
Der Traum eines jeden Platform Owners ist es, durch eine zentral gesteuerte Migration – ohne Änderungen im User Code – großflächige Kostensenkungen oder Performanceverbesserungen zu erwirken.
Engines wie duckdb oder Libraries wie sqlframe bieten eine Kompatibilitätsschicht an, um existierenden pyspark-Code ohne Spark auszuführen und den Compute auf alternativen Query Engines zu migrieren, die für kleine bis mittlere Datensets eine um das X-fache gestiegene Performance zu geringeren Kosten versprechen.
In dieser Session möchte ich – als Owner einer globalen Daten & AI Platform – einen Überblick über das aktuelle Angebot im Open-Source-Bereich geben und unsere Erfolge und Misserfolge teilen.
Vorkenntnisse
Erfahrung im Data Engineering mit pyspark, Python, Platform Engineering und Lakehouse-Architekturen ist von Vorteil.
Lernziele
Teilnehmende erhalten
- Überblick über verschiedene Open Source Query Engines
- Überblick über universelle DataFrame APIs und deren Innenleben
- Erfahrungen aus der Praxis bezüglich Kosten und Performance von migriertem pyspark-Code zu alternativen Query Engines und Kompatibilitätslayern.