Vom Microservice zum ML-Modell: Eine Odyssee durch moderne Datenformate
Die Wahl des richtigen Datenformats ist keine bloße Formsache, sondern eine weitreichende Architekturentscheidung. Wer hier falsch wählt, zahlt später mit hoher Latenz, explodierenden Cloud-Kosten oder fehlschlagenden Pipelines bei Schema-Änderungen.
Dieser Vortrag nimmt sich dieser Frage an und grenzt gängige Formate von einander ab.
Wir begleiten hierfür einen einzelnen Datenpunkt auf seinem Lebenszyklus durch eine moderne Datenplattform: Von der Entstehung im Microservice (in Protobuf), durch einen Kafka Stream (in Avro) hin zum Lakehouse (Parquet mit Iceberg), um dann schlussendlich für Machine Learning Training (via Arrow) oder Vektorsuche (via Lance) verwendet zu werden.
Vorkenntnisse
Grundlegendes Verständnis von Datenplattformen und welche unterschiedlichen Anwendungsfälle hierdurch abgebildet werden.
Lernziele
Du lernst
- ein tieferes Verständnis davon, worin sich Datenformate wie Protobuf, Avro, Parquet, Iceberg und Lance unterscheiden,
- welche Implikationen sich für Kosten und Latenz ergeben und
- für welches Szenario welches Format geeignet ist.