Ihr möchtet mit eurem Team teilnehmen? Ab drei Personen profitiert ihr von unseren Gruppenrabatten! Direkt im Shop buchen!

Erfahrungen aus der Migration auf alternative, pyspark-API kompatible Engines wie duckdb

Der Traum eines jeden Platform Owners ist es, durch eine zentral gesteuerte Migration – ohne Änderungen im User Code – großflächige Kostensenkungen oder Performanceverbesserungen zu erwirken.

Engines wie duckdb oder Libraries wie sqlframe bieten eine Kompatibilitätsschicht an, um existierenden pyspark-Code ohne Spark auszuführen und den Compute auf alternativen Query Engines zu migrieren, die für kleine bis mittlere Datensets eine um das X-fache gestiegene Performance zu geringeren Kosten versprechen.

In dieser Session möchte ich – als Owner einer globalen Daten & AI Platform – einen Überblick über das aktuelle Angebot im Open-Source-Bereich geben und unsere Erfolge und Misserfolge teilen.

Vorkenntnisse

Erfahrung im Data Engineering mit pyspark, Python, Platform Engineering und Lakehouse-Architekturen ist von Vorteil.

Lernziele

Teilnehmende erhalten

  • Überblick über verschiedene Open Source Query Engines
  • Überblick über universelle DataFrame APIs und deren Innenleben
  • Erfahrungen aus der Praxis bezüglich Kosten und Performance von migriertem pyspark-Code zu alternativen Query Engines und Kompatibilitätslayern.

Speaker

 

Nicolas Renkamp
Nicolas Renkamp ist der Global Head of Platform Product Portfolio in der Merck Data & AI Organization und verantwortet die Core Datenplattformen von Merck.