Zurück

Hands On: Live-Data-Product-Entwicklung mit Apache Kafka und Open-Source-Software

Workshop am 19. September 2022, 9:00-16:30 Uhr

Daten werden heute als Produkte bereitgestellt – korrekt, integriert und hoch verfügbar. Solche Data-Products müssen immer aktuelle Daten liefern, um erfolgreich zu sein. Die Entwicklung dieser Live-Data-Products ist komplex: Datenströme aus unterschiedlichen Quellen müssen in Echtzeit integriert, konsolidiert, kombiniert, angereichert und anfragbar gemacht werden. Zusätzlich muss die Operationalisierung der Daten-Pipelines gemeistert werden.

In diesem Workshop lernen Sie einen erprobten OSS Stack für die Entwicklung von Live-Data-Products kennen. Im Zentrum stehen Apache Kafka als Streaming-Data-Platform sowie weitere Open-Source-Projekte und wir entwickeln gemeinsam ein Live-Data-Product.

Vorkenntnisse

Programmierkenntnisse in Python oder Java
Wir bereiten ein Beispielszenario vor, bestärken aber alle Teilnehmenden ein eigenes Live-Data-Product-Szenario vorzubereiten

Lernziele

Integration von Datenströmen mit Apache Kafka
Schemas und De-/Serialisierung mit protobuf
Kombination von Datenströmen mit Kafka Streams
Live-Datenzugriff über API und GraphQL
Anbinden von Drittsystemen über Kafka Connect, z.B. Suche mit Elasticsearch
Kennenlernen von Tools wie Kowl, StreamsExplorer, etc.
Behandlung von fehlerhaften Daten und Reprozessierung in Echtzeit
Verarbeiten großer Datensätze
Anwenden von ML-Modellen auf Datenströmen

Agenda

ab 08:00 Uhr: Registrierung und Begrüßungskaffee

09:00 - 10:30 Uhr: Apache Kafka Basics

Einführung Apache Kafka und Data Streaming
Kafka Konzepte
- Broker
- Topics (Compaction, Retention, Tombstones)
- Messages
- Partitionen
- Offsets
Mit Kafka arbeiten: Producer, Consumer
- Transactions
- Commits
- Rebalancing
Daten-Serialisierung
- Avro und Protobuf
- Schema Registry
- Ausblick für Schema Evolution
Kafka Installation: Lokale Entwicklungsumgebung mit Docker
Beispieldaten in Kafka-Topics produzieren

10:30 - 11:00 Uhr: Kaffeepause, Diskussion

11:00 - 12:00 Uhr: Data Pipelines with Apache Kafka

Einführung Kafka Connect
Kafka Connect für RDBMS, Elasticsearch, Neo4j
Kafka Connect Transformations: Single Message Transformations (SMTs)
Einführung Kafka Streams
Kafka Streams DSL
Entwicklung von Kafka Streams Applikationen

12:00 - 13:00 Uhr: Mittagessen

13:00 - 14:30 Uhr: Beispielszenario Live-Data-Product

Vorstellung Live-Data-Product-Szenarien der Teilnehmer und von bakdata
Auswahl, Planung, Implementierung Live-Data-Product mit Apache Kafka und OSS
Bonus: Stateful Stream Processing

14:30 - 15:00 Uhr: Kaffeepause, Diskussion

15:00 - 16:30 Uhr: Running Apache Kafka in Production

Bereitstellen des Live-Data-Products über GraphQL
Monitoring mit Prometheus/Grafana, Kowl, Streams Explorer
Fehlerbehandlung in Kafka Connect und Kafka Streams
Umgang mit unerwartet großen Events
Betrieb von Kafka auf Kubernetes

ca. 16:30 Uhr: Ende

Technische Anforderungen

Die Teilnehmenden benötigen Java, Python, Docker, idealerweise mit Kubernetes (Docker Desktop, minikube), eine Java/Python IDE. Helm vorab zu installieren, wäre auch gut. Die Teilnehmenden arbeiten auf eigener Hardware, ausreichend Hauptspeicher ist für die Workshop-Teilnahme wichtig, 8GB RAM mindestens, 16GB ist unsere Empfehlung.

https://docs.docker.com/get-docker/
https://docs.docker.com/compose/
https://grpc.io/docs/protoc-installation/

Speaker

Dr. Alexander Albrecht ist Mitgründer der bakdata GmbH und verfügt über mehr als 20 Jahre Erfahrung in der Entwicklung maßgeschneiderter Software-Lösungen für datenzentrierte Produkte. Er unterstützt Kunden aus verschiedenen Branchen wie Life Science, Versicherungen, Gesundheitswesen, E-Commerce und Logistik bei der erfolgreichen Entwicklung von Live-Data-Products.

Philipp Schirmer ist Software- und Data Engineer bei bakdata und arbeitet hauptsächlich an Data-Streaming-Projekten. Philipp interessiert sich für den Aufbau skalierbarer verteilter Systeme mit Open-Source- und Cloud-Technologien. Er hat große Erfahrung im Aufbau von Enterprise-Data-Streaming-Lösungen mit Apache Kafka. Philipp teilt sein Wissen mit der Community durch Open-Source-Projekte, Online-Artikel und als Sprecher auf Konferenzen und Meetup-Veranstaltungen.

Ramin Gharib ist Software- und Data Engineer bei bakdata und arbeitet am Aufbau von Data Pipelines und verteilten Systemen mit Apache Kafka. Ein Schwerpunkt seiner Arbeit liegt im Bereich DevOps und der Breitstellung von verteilten Systemen in der Cloud. Ramin ist ein aktiver Entwickler in der Open-Source-Community und baut Open-Source Tools basierend auf Apache Kafka.

Jetzt Tickets sichern