Roboterdaten in der Google Cloud: Ein Praxisbeispiel mit Dataproc und BigQuery
Jede Nacht fahren hunderte Roboter autonom durch dm-Märkte, um die Bestände und Positionen der Artikel in den Regalen zu erfassen. Mit diesen Daten werden zahlreiche Prozesse im Konzern optimiert, z. B. die Versorgung der Märkte mit Waren. Von der Kamera im Roboter bis zur Tabelle in der Google Cloud ist es allerdings ein langer Weg.
Wir, ein Data Engineer und ein Cloud Architect, erläutern in diesem Vortrag mit welcher Architektur in der Google Cloud es uns gelingt, die Roboterdaten near-realtime zu prozessieren und für dm nutzbar zu machen. Zur Sprache kommen auch architektonische Fehlgriffe, so dass die Zuhörer:innen unsere Fehler hoffentlich nicht wiederholen werden.
Vorkenntnisse
- Grundkenntnisse in Apache Spark (PySpark)
- Was unterscheidet Batch Processing und Streaming?
- Grundlagen im Bereich Cloud Computing
- Kenntnisse der Google Cloud (insbesondere Dataproc und BigQuery) sind hilfreich, aber nicht zwingend erforderlich. Wer ähnliche Services bei anderen Cloud Providern nutzt, wird keine Verständnisprobleme haben.
Lernziele
- Welche Architektur verwendet dm, um die Daten der Scannroboter aufzubereiten und im Unternehmen zu verteilen?
- Warum wird Dataproc Serverless verwendet und nicht etwa Dataflow oder Data Fusion? (Alle drei sind ETL-Services in der Google Cloud.)
- Wie wird BigQuery verwendet, um die Daten im Unternehmen zu verteilen?
- Warum wurde die Architektur in der Google Cloud und nicht bei einem anderen Hyperscaler umgesetzt?