Mit Metadatenmanagement hin zu reproduzierbaren und flexiblen Data-Science-Workflows auf Kubernetes
Damit Data-Science-Projekte erfolgreich sein können, werden nicht nur große Datenmengen und für deren Verarbeitung skalierbare Storage- und Computekapazitäten benötigt. Mindestens genauso wichtig ist, dass Data-Science-Pipelines flexibel sind und trotzdem nachvollziehbare und reproduzierbare Ergebnisse erzeugen.
Sebastian Jäger und Kevin Exel zeigen, wie im Kontext der massenspektrometrischen Bildanalyse, welche in Kooperation mit der Hochschule Mannheim umgesetzt wurde, die für Data-Science-Projekte wichtigen Eigenschaften mithilfe eines Metadatenmangements erreicht werden können. Es wurde sowohl auf die Erweiterbarkeit um zusätzliche Domänen geachtet, als auch auf die Integrierbarkeit in eine bestehende Data-Science-Plattform auf Basis von Kubernetes.
Vorkenntnisse
Grundlegendes Verständnis von Data-Science-Workflows und deren Anforderungen, Problemen und Herausforderungen wie Reproduzierbarkeit und Nachvollziehbarkeit, ist von Vorteil.
Lernziele
Überblick über die Möglichkeiten, die durch das Metadatenmanagement erzeugt werden und wie eine konkrete Architektur aussehen kann – einschließlich deren Umsetzung auf Kubernetes.