Zurück

Open Table Formats in the Wild – Reloaded: Vortexing Ducks over Floating Icebergs

Apache Iceberg und Parquet bilden zentrale Bausteine moderner Datenarchitekturen. Sie versprechen Interoperabilität zwischen verschiedenen Engines, ACID-Garantien sowie Unabhängigkeit von einzelnen Anbietern. Doch können diese Technologien auch aktuellen Anforderungen wie Change Data Capture (CDC), Low-Latency-Streaming und Point-Lookups für AI-UseCases gerecht werden?

In diesem Vortrag beleuchte ich, wie sich Iceberg in der Praxis bewährt – insbesondere bei Organisationen, die nicht über die Ressourcen von Tech-Giganten wie Netflix verfügen. Ich diskutiere, warum inkrementelle Verarbeitung kein natives Konzept in Iceberg war, wie Icebergs Metadaten-Modell Streaming-Szenarien einschränken und weshalb das physische Layout von Parquet zum Engpass für moderne Zugriffsmuster und KI-Anwendungen wird.

Abschließend gebe ich einen Ausblick auf DuckLake und Vortex als vielversprechende neue Ansätze für Table- und File-Formate der nächsten Generation.

Vorkenntnisse

Teilnehmende sollten über fortgeschrittene Kenntnisse im Bereich Data Engineering verfügen.
Grundlagenwissen zu Open Table Formats wird vorausgesetzt.

Lernziele

Du lernst,

warum inkrementelle Verarbeitung kein nativer Bestandteil von Apache Iceberg war
wie die Metadatenstruktur von Iceberg klare Grenzen für Low-Latency-Streaming setzt
weshalb das physische Layout von Parquet zum Engpass für punktuelle Abfragen und moderne KI-Zugriffsmuster wird, und
erhältst Einblicke in DuckLake und Vortex als aufkommende Alternativen für Table- und File-Formate.

Speaker

Franz Wöllert holds a master's degree in Psychology and 10 years of professional experience in Data Science/Engineering/Architecture.
LinkedIn