Zurück

Free Movement of Data with Apache Arrow

Die Landschaft der Big-Data-Systeme ist ständig am Wachsen. Es entstehen kontinuierlich neue Tools für Data Warehousing, Data Engineering und Machine Learning. Jedes dieser Felder hat sein eigenes Ökosystem und bevorzugte Programmiersprache. Jedoch müssen diese Bereiche alle zusammenarbeiten, um ein erfolgreiches Datenprodukt bauen und betreiben zu können. Apache Arrow setzt hier an und definiert einen Standard und Bibliotheken für den Datenaustausch, um diese System hocheffizient zu verknüpfen. Ein aktuelles Beispiel der Nutzung von Arrow ist die Anwendung in Apache Spark, um das in Scala geschriebene System mit effizienten Funktion aus Python mit Pandas erweiterbar zu machen.

Vorkenntnisse

Als Hörer dieses Vortrags sollte man einen groben Überblicken von Teilen der Big-Data- und AI-Lösungen haben. Um die im Vortrag angesprochenen Probleme zu verstehen, bedarf es keiner tiefen Kenntnis eines spezifischen Produkts, sondern die Bewusstheit, dass die Big-Data-Landschaft technisch nicht homogen ist.

Lernziele

Besucher dieses Vortrages sollen die akuten Probleme technischer Natur in der Zusammenarbeit der verschiedenen Datenökosystemen verstehen. Weiterhin wird aufgezeigt, wie Apache Arrow einen Ansatz bietet, Systeme verschiedener Technologien zu verbinden, sodass auch verschiedene Bereiche in der Entwicklung eines gesamten Datenproduktes effizient zusammenarbeiten können.

Speaker

Uwe Korn ist Senior Data Scientist bei der deutschen RetailTec-Firma Blue Yonder. Seine Expertise ist im Aufbau und Betrieb skalierbarer Architekturen und Data Pipelines für Machine-Learning-Produkte. Als Teil seiner Arbeit, um effizienteren Datenaustausch im Data Engineering zu haben, wurde er PMC und Core Committer von Apache Arrow und Parquet.