Zurück

Vom Microservice zum ML-Modell: Eine Odyssee durch moderne Datenformate

Die Wahl des richtigen Datenformats ist keine bloße Formsache, sondern eine weitreichende Architekturentscheidung. Wer hier falsch wählt, zahlt später mit hoher Latenz, explodierenden Cloud-Kosten oder fehlschlagenden Pipelines bei Schema-Änderungen.

Dieser Vortrag nimmt sich dieser Frage an und grenzt gängige Formate von einander ab.

Wir begleiten hierfür einen einzelnen Datenpunkt auf seinem Lebenszyklus durch eine moderne Datenplattform: Von der Entstehung im Microservice (in Protobuf), durch einen Kafka Stream (in Avro) hin zum Lakehouse (Parquet mit Iceberg), um dann schlussendlich für Machine Learning Training (via Arrow) oder Vektorsuche (via Lance) verwendet zu werden.

Vorkenntnisse

Grundlegendes Verständnis von Datenplattformen und welche unterschiedlichen Anwendungsfälle hierdurch abgebildet werden.

Lernziele

Du lernst

ein tieferes Verständnis davon, worin sich Datenformate wie Protobuf, Avro, Parquet, Iceberg und Lance unterscheiden,
welche Implikationen sich für Kosten und Latenz ergeben und
für welches Szenario welches Format geeignet ist.

Speaker

Florian Müller arbeitet seit 15 Jahren an Big-Data- und Machine-Learning-Projekten mit Fokus auf den produktiven Einsatz und die damit verbundenen operativen Herausforderungen.
LinkedIn