Praxisnahe Erfahrungen aus dem Data-Quality-Dschungel

Unter Datenqualität versteht man den Grad der Übereinstimmung von Daten mit den durch sie repräsentierten realen Dingen oder Sachverhalten.

Da es in der Praxis oft schwierig ist, die Qualität von Daten anhand dieser Definition zu beurteilen, wird versucht, die Qualität von Daten über die Abweichung von zuvor definierten Annahmen zu beurteilen, z.B. ob der Temperaturwert eines Sensors in einem erwarteten Wertebereich liegt und dessen Einheiten nur aus einem vordefinierten Set ["Celsius", "Fahrenheit"] stammen. Qualitative Daten sind für Datenprodukte von immenser Bedeutung, da sie z.B. über Schnittstellen bereitgestellt werden, oder die Prognosequalität von ML-Modellen beeinflussen.

In unserem Vortrag wollen wir neben Data-Quality-Grundlagen von unseren Praxis-Erfahrungen bei der Verwendung der Data Quality Frameworks Soda und Great Expectations berichten.

Vorkenntnisse

  • Grundlegendes Verständnis von Data Engineering
  • Grundlegendes Verständnis von Datenverarbeitung mit Python/PySpark

Lernziele

  • Wichtigkeit von guter Datenqualität verstehen
  • Herausforderungen und Lösungsansätze bei der Sicherstellung von Data Quality verstehen
  • Grundlegendes Verständnis von Great Expectations und Soda und deren Vor- und Nachteile

Speaker

 

Florian Gräbe
Florian Gräbe hat am KIT Wirtschaftinsgenieurwesen studiert. Aktuell arbeitet er bei inovex als Data- und ML Engineer und setzt dort Datenprojekte in der Cloud für Kunden aus verschiedensten Branchen um.

Marcel Spitzer
Marcel Spitzer ist Data Engineer bei inovex. Er beschäftigt sich mit der Entwicklung von Streaming- und Batch-Pipelines zur Datenverarbeitung in verteilten Systemen und nutzt Machine Learning um Datenprodukte smart zu machen.

data2day-Newsletter

Ihr möchtet über die data2day
auf dem Laufenden gehalten werden?

 

Anmelden