Ihr möchtet mit eurem Team teilnehmen? Ab drei Personen profitiert ihr von unseren Gruppenrabatten! Direkt im Shop buchen!

MLOps im Schnellgang: Optimierung eines Feature-Stores mit DuckDB und ArrowFlight

Feature Stores zur Verwaltung von Machine-Learning-Daten sind ein integraler Bestandteil des MLOps-Stacks. Ein Feature Store ermöglicht die systematische und benutzerfreundliche Verwaltung von Machine-Learning-Daten innerhalb einer Organisation und stellt zudem die Datenkonsistenz zwischen Trainings- und Bereitstellungsumgebungen sicher.

Nach einer Einführung in das Thema Feature Store, wird es in diesem Talk darum gehen, wie wir den auf Spark und Apache Hudi basierenden Stack unserer Feature-Store-Plattform durch einen leichtgewichtigen, bis zu dreißigmal schnelleren, Daten-Expressway basierend auf DuckDB und Arrow Flight ergänzt haben – und was wir dabei gelernt haben.

Vorkenntnisse

  • Data Science, Big Data und Datenbanken

Lernziele

  • Kennenlernen von Feature Stores
  • Kennenlernen DuckDB und Arrow (Flight)
  • Vor- und Nachteile von Hive/Spark vs DuckDB/ArrowFlight
  • Ansatz für die Integration von DuckDB in Lakehouse-Systeme wie Hudi/Delta/Iceberg

Speaker

 

Till Döhmen
Till Döhmen ist Research Engineer bei Hopsworks, einem führenden Anbieter von Feature Store- und MLOps-Lösungen. Neben seiner Tätigkeit bei Hopsworks, ist er Gastwissenschaftler im Intelligent Data Engineering Lab der Universität von Amsterdam und beschäftigt sich dort mit Forschungsfragen an der Schnittstellen von Datenmanagement und Machine Learning.