Möchten Sie mit Ihrem Team teilnehmen? Ab drei Personen profitieren Sie von unseren Gruppenrabatten! Direkt im Shop buchen!

Hands On: Live-Data-Product-Entwicklung mit Apache Kafka und Open-Source-Software


Workshop am 19. September 2022, 9:00-16:30 Uhr


Daten werden heute als Produkte bereitgestellt – korrekt, integriert und hoch verfügbar. Solche Data-Products müssen immer aktuelle Daten liefern, um erfolgreich zu sein. Die Entwicklung dieser Live-Data-Products ist komplex: Datenströme aus unterschiedlichen Quellen müssen in Echtzeit integriert, konsolidiert, kombiniert, angereichert und anfragbar gemacht werden. Zusätzlich muss die Operationalisierung der Daten-Pipelines gemeistert werden.

In diesem Workshop lernen Sie einen erprobten OSS Stack für die Entwicklung von Live-Data-Products kennen. Im Zentrum stehen Apache Kafka als Streaming-Data-Platform sowie weitere Open-Source-Projekte und wir entwickeln gemeinsam ein Live-Data-Product.

Vorkenntnisse

  • Programmierkenntnisse in Python oder Java
  • Wir bereiten ein Beispielszenario vor, bestärken aber alle Teilnehmenden ein eigenes Live-Data-Product-Szenario vorzubereiten

Lernziele

  • Integration von Datenströmen mit Apache Kafka
  • Schemas und De-/Serialisierung mit protobuf
  • Kombination von Datenströmen mit Kafka Streams
  • Live-Datenzugriff über API und GraphQL
  • Anbinden von Drittsystemen über Kafka Connect, z.B. Suche mit Elasticsearch
  • Kennenlernen von Tools wie Kowl, StreamsExplorer, etc.
  • Behandlung von fehlerhaften Daten und Reprozessierung in Echtzeit
  • Verarbeiten großer Datensätze
  • Anwenden von ML-Modellen auf Datenströmen

Agenda

9:00 - 10:30 Uhr Apache Kafka Basics

  • Einführung
  • Kafka Installation: Lokale Entwicklungsumgebung mit Docker
  • Kafka-Cluster mit Kubernetes
  • Topics, Partitionen, Segmente
  • Kafka Client Bibliotheken: Producer, Consumer
  • Kafka Schema Management
  • Daten-Serialisierung
    1. Avro und Protobuf
    2. Ausblick für Schema Evolution
  • Schema Registry

10:30 - 11:00 Kaffeepause, Diskussion

11:00 - 12:00 Beispielszenario Live-Data-Product

  • Vorstellung Live-Data-Product-Szenarien der Teilnehmer und von bakdata
  • Auswahl und Planung Live-Data-Product mit Apache Kafka und OSS
  • Aufsetzen und erste Schritte (Topics, Daten-Serialisierung, Producer/Consumer, ...)
  • Bereitstellen des Live-Data-Products über GraphQL

12:00 - 13:00 Mittagessen

13:00 - 14:30 Data Pipelines with Kafka Connect

  • Einführung Kafka Connect
  • Running Kafka Connect - Standalone vs. Distributed Mode
  • Kafka Connect für RDBMS
  • Kafka Connect für Elasticsearch
  • Kafka Connect für Neo4j
  • Kafka Connect Transformations: Single Message Transformations (SMTs)
  • Fehlerbehandlung
  • Dead Letter Queues

14:30 - 15:00 Kaffeepause, Diskussion

15:00 - 16:30 Stream Processing with Kafka Streams

  • Einführung Kafka Streams Konzepte
  • Vorstellung Kafka Streams API
  • Entwicklung von Kafka Streams Applikationen
  • Umgang mit problematischen Events
    1. Fehlerbehandlung
    2. Dead Letter Queues
    3. Unerwartet große Events
  • Betrieb von Kafka Streams Applikationen (Kubernetes, Prometheus/Grafana, Kowl, Streams Explorer, ...

 

Technische Anforderungen

Die Teilnehmenden benötigen Java, Python, Docker, idealerweise mit Kubernetes (Docker Desktop, minikube), eine Java/Python IDE. Helm vorab zu installieren, wäre auch gut. Die Teilnehmenden arbeiten auf eigener Hardware, ausreichend Hauptspeicher ist für die Workshop-Teilnahme wichtig, 8GB RAM mindestens, 16GB ist unsere Empfehlung.
  • https://docs.docker.com/get-docker/
  • https://docs.docker.com/compose/
  • https://grpc.io/docs/protoc-installation/

Speaker

 

Dr. Alexander Albrecht
Dr. Alexander Albrecht ist Mitgründer der bakdata GmbH und verfügt über mehr als 20 Jahre Erfahrung in der Entwicklung maßgeschneiderter Software-Lösungen für datenzentrierte Produkte. Er unterstützt Kunden aus verschiedenen Branchen wie Life Science, Versicherungen, Gesundheitswesen, E-Commerce und Logistik bei der erfolgreichen Entwicklung von Live-Data-Products.

Philipp Schirmer
Philipp Schirmer ist Software- und Data Engineer bei bakdata und arbeitet hauptsächlich an Data-Streaming-Projekten. Philipp interessiert sich für den Aufbau skalierbarer verteilter Systeme mit Open-Source- und Cloud-Technologien. Er hat große Erfahrung im Aufbau von Enterprise-Data-Streaming-Lösungen mit Apache Kafka. Philipp teilt sein Wissen mit der Community durch Open-Source-Projekte, Online-Artikel und als Sprecher auf Konferenzen und Meetup-Veranstaltungen.

Gold-Sponsoren

Accenture
INFOMOTION
denodo

Silber-Sponsoren

codecentric AG
inovex

data2day-Newsletter

Sie möchten über die data2day
auf dem Laufenden gehalten werden?

 

Anmelden