Ihr möchtet mit eurem Team teilnehmen? Ab drei Personen profitiert ihr von unseren Gruppenrabatten! Direkt im Shop buchen!

Open Table Formats in the Wild – Reloaded: Vortexing Ducks over Floating Icebergs

Apache Iceberg und Parquet bilden zentrale Bausteine moderner Datenarchitekturen. Sie versprechen Interoperabilität zwischen verschiedenen Engines, ACID-Garantien sowie Unabhängigkeit von einzelnen Anbietern. Doch können diese Technologien auch aktuellen Anforderungen wie Change Data Capture (CDC), Low-Latency-Streaming und Point-Lookups für AI-UseCases gerecht werden?

In diesem Vortrag beleuchte ich, wie sich Iceberg in der Praxis bewährt – insbesondere bei Organisationen, die nicht über die Ressourcen von Tech-Giganten wie Netflix verfügen. Ich diskutiere, warum inkrementelle Verarbeitung kein natives Konzept in Iceberg war, wie Icebergs Metadaten-Modell Streaming-Szenarien einschränken und weshalb das physische Layout von Parquet zum Engpass für moderne Zugriffsmuster und KI-Anwendungen wird.

Abschließend gebe ich einen Ausblick auf DuckLake und Vortex als vielversprechende neue Ansätze für Table- und File-Formate der nächsten Generation.

Vorkenntnisse

  • Teilnehmende sollten über fortgeschrittene Kenntnisse im Bereich Data Engineering verfügen.
  • Grundlagenwissen zu Open Table Formats wird vorausgesetzt.

Lernziele

Du lernst,

  • warum inkrementelle Verarbeitung kein nativer Bestandteil von Apache Iceberg war
  • wie die Metadatenstruktur von Iceberg klare Grenzen für Low-Latency-Streaming setzt
  • weshalb das physische Layout von Parquet zum Engpass für punktuelle Abfragen und moderne KI-Zugriffsmuster wird, und
  • erhältst Einblicke in DuckLake und Vortex als aufkommende Alternativen für Table- und File-Formate.

Speaker

 

Franz Wöllert
Franz Wöllert holds a master's degree in Psychology and 10 years of professional experience in Data Science/Engineering/Architecture.
LinkedIn