Open Table Formats in the Wild – Reloaded: Vortexing Ducks over Floating Icebergs
Apache Iceberg und Parquet bilden zentrale Bausteine moderner Datenarchitekturen. Sie versprechen Interoperabilität zwischen verschiedenen Engines, ACID-Garantien sowie Unabhängigkeit von einzelnen Anbietern. Doch können diese Technologien auch aktuellen Anforderungen wie Change Data Capture (CDC), Low-Latency-Streaming und Point-Lookups für AI-UseCases gerecht werden?
In diesem Vortrag beleuchte ich, wie sich Iceberg in der Praxis bewährt – insbesondere bei Organisationen, die nicht über die Ressourcen von Tech-Giganten wie Netflix verfügen. Ich diskutiere, warum inkrementelle Verarbeitung kein natives Konzept in Iceberg war, wie Icebergs Metadaten-Modell Streaming-Szenarien einschränken und weshalb das physische Layout von Parquet zum Engpass für moderne Zugriffsmuster und KI-Anwendungen wird.
Abschließend gebe ich einen Ausblick auf DuckLake und Vortex als vielversprechende neue Ansätze für Table- und File-Formate der nächsten Generation.
Vorkenntnisse
- Teilnehmende sollten über fortgeschrittene Kenntnisse im Bereich Data Engineering verfügen.
- Grundlagenwissen zu Open Table Formats wird vorausgesetzt.
Lernziele
Du lernst,
- warum inkrementelle Verarbeitung kein nativer Bestandteil von Apache Iceberg war
- wie die Metadatenstruktur von Iceberg klare Grenzen für Low-Latency-Streaming setzt
- weshalb das physische Layout von Parquet zum Engpass für punktuelle Abfragen und moderne KI-Zugriffsmuster wird, und
- erhältst Einblicke in DuckLake und Vortex als aufkommende Alternativen für Table- und File-Formate.