Ihr möchtet mit eurem Team teilnehmen? Ab drei Personen profitiert ihr von unseren Gruppenrabatten! Direkt im Shop buchen!

Roboterdaten in der Google Cloud: Ein Praxisbeispiel mit Dataproc und BigQuery

Jede Nacht fahren hunderte Roboter autonom durch dm-Märkte, um die Bestände und Positionen der Artikel in den Regalen zu erfassen. Mit diesen Daten werden zahlreiche Prozesse im Konzern optimiert, z. B. die Versorgung der Märkte mit Waren. Von der Kamera im Roboter bis zur Tabelle in der Google Cloud ist es allerdings ein langer Weg.

Wir, ein Data Engineer und ein Cloud Architect, erläutern in diesem Vortrag mit welcher Architektur in der Google Cloud es uns gelingt, die Roboterdaten near-realtime zu prozessieren und für dm nutzbar zu machen. Zur Sprache kommen auch architektonische Fehlgriffe, so dass die Zuhörer:innen unsere Fehler hoffentlich nicht wiederholen werden.

Vorkenntnisse

  • Grundkenntnisse in Apache Spark (PySpark)
  • Was unterscheidet Batch Processing und Streaming?
  • Grundlagen im Bereich Cloud Computing
  • Kenntnisse der Google Cloud (insbesondere Dataproc und BigQuery) sind hilfreich, aber nicht zwingend erforderlich. Wer ähnliche Services bei anderen Cloud Providern nutzt, wird keine Verständnisprobleme haben.

Lernziele

  • Welche Architektur verwendet dm, um die Daten der Scannroboter aufzubereiten und im Unternehmen zu verteilen?
  • Warum wird Dataproc Serverless verwendet und nicht etwa Dataflow oder Data Fusion? (Alle drei sind ETL-Services in der Google Cloud.)
  • Wie wird BigQuery verwendet, um die Daten im Unternehmen zu verteilen?
  • Warum wurde die Architektur in der Google Cloud und nicht bei einem anderen Hyperscaler umgesetzt?

Speaker

 

Oliver Frost
Oliver Frost hat verschiedene Rollen in der Datenwelt durchlaufen: Er war Business Analyst und Data Scientist bei ImmoScout24, und ist nun Cloud Architect bei dmTECH. Über die Jahre hat er Daten-Architekturen in den drei großen Hyperscalern (AWS, Azure, Google Cloud) gebaut. Zuletzt hat er diverse Datenstrecken von einem On-Premises-Hadoop-Cluster in die Google Cloud migriert.

Constantin Lehmann
Constantin Lehmann ist Machine-Learning-Engineer beim IT-Projekthaus inovex. Aktuell arbeitet er als externer Data-Engineer bei dm und hat für das Roboterprojekt von dm zahlreiche Datenstrecken konzipiert und implementiert. Gemeinsam mit Oliver hat er die Migration der Datenstrecken in die Google Cloud umgesetzt.