Möchten Sie mit Ihrem Team teilnehmen? Ab drei Personen profitieren Sie von unseren Gruppenrabatten! Direkt im Shop buchen!

Hands On: Live-Data-Product-Entwicklung mit Apache Kafka und Open-Source-Software


Workshop am 19. September 2022, 9:00-16:30 Uhr


Daten werden heute als Produkte bereitgestellt – korrekt, integriert und hoch verfügbar. Solche Data-Products müssen immer aktuelle Daten liefern, um erfolgreich zu sein. Die Entwicklung dieser Live-Data-Products ist komplex: Datenströme aus unterschiedlichen Quellen müssen in Echtzeit integriert, konsolidiert, kombiniert, angereichert und anfragbar gemacht werden. Zusätzlich muss die Operationalisierung der Daten-Pipelines gemeistert werden.

In diesem Workshop lernen Sie einen erprobten OSS Stack für die Entwicklung von Live-Data-Products kennen. Im Zentrum stehen Apache Kafka als Streaming-Data-Platform sowie weitere Open-Source-Projekte und wir entwickeln gemeinsam ein Live-Data-Product.

Vorkenntnisse

  • Programmierkenntnisse in Python oder Java
  • Wir bereiten ein Beispielszenario vor, bestärken aber alle Teilnehmenden ein eigenes Live-Data-Product-Szenario vorzubereiten

Lernziele

  • Integration von Datenströmen mit Apache Kafka
  • Schemas und De-/Serialisierung mit protobuf
  • Kombination von Datenströmen mit Kafka Streams
  • Live-Datenzugriff über API und GraphQL
  • Anbinden von Drittsystemen über Kafka Connect, z.B. Suche mit Elasticsearch
  • Kennenlernen von Tools wie Kowl, StreamsExplorer, etc.
  • Behandlung von fehlerhaften Daten und Reprozessierung in Echtzeit
  • Verarbeiten großer Datensätze
  • Anwenden von ML-Modellen auf Datenströmen

Agenda

ab 08:00 Uhr: Registrierung und Begrüßungskaffee

09:00 - 10:30 Uhr: Apache Kafka Basics

  • Einführung Apache Kafka und Data Streaming
  • Kafka Konzepte
    • Broker
    • Topics (Compaction, Retention, Tombstones)
    • Messages
    • Partitionen
    • Offsets
  • Mit Kafka arbeiten: Producer, Consumer
    • Transactions
    • Commits
    • Rebalancing
  • Daten-Serialisierung
    • Avro und Protobuf
    • Schema Registry
    • Ausblick für Schema Evolution
  • Kafka Installation: Lokale Entwicklungsumgebung mit Docker
  • Beispieldaten in Kafka-Topics produzieren

10:30 - 11:00 Uhr: Kaffeepause, Diskussion

11:00 - 12:00 Uhr: Data Pipelines with Apache Kafka

  • Einführung Kafka Connect
  • Kafka Connect für RDBMS, Elasticsearch, Neo4j
  • Kafka Connect Transformations: Single Message Transformations (SMTs)
  • Einführung Kafka Streams
  • Kafka Streams DSL
  • Entwicklung von Kafka Streams Applikationen

12:00 - 13:00 Uhr: Mittagessen

13:00 - 14:30 Uhr: Beispielszenario Live-Data-Product

  • Vorstellung Live-Data-Product-Szenarien der Teilnehmer und von bakdata
  • Auswahl, Planung, Implementierung Live-Data-Product mit Apache Kafka und OSS
  • Bonus: Stateful Stream Processing

14:30 - 15:00 Uhr: Kaffeepause, Diskussion

15:00 - 16:30 Uhr: Running Apache Kafka in Production

  • Bereitstellen des Live-Data-Products über GraphQL
  • Monitoring mit Prometheus/Grafana, Kowl, Streams Explorer
  • Fehlerbehandlung in Kafka Connect und Kafka Streams
  • Umgang mit unerwartet großen Events
  • Betrieb von Kafka auf Kubernetes

ca. 16:30 Uhr: Ende

 

Technische Anforderungen

Die Teilnehmenden benötigen Java, Python, Docker, idealerweise mit Kubernetes (Docker Desktop, minikube), eine Java/Python IDE. Helm vorab zu installieren, wäre auch gut. Die Teilnehmenden arbeiten auf eigener Hardware, ausreichend Hauptspeicher ist für die Workshop-Teilnahme wichtig, 8GB RAM mindestens, 16GB ist unsere Empfehlung.
  • https://docs.docker.com/get-docker/
  • https://docs.docker.com/compose/
  • https://grpc.io/docs/protoc-installation/

Speaker

 

Dr. Alexander Albrecht
Dr. Alexander Albrecht ist Mitgründer der bakdata GmbH und verfügt über mehr als 20 Jahre Erfahrung in der Entwicklung maßgeschneiderter Software-Lösungen für datenzentrierte Produkte. Er unterstützt Kunden aus verschiedenen Branchen wie Life Science, Versicherungen, Gesundheitswesen, E-Commerce und Logistik bei der erfolgreichen Entwicklung von Live-Data-Products.

Philipp Schirmer
Philipp Schirmer ist Software- und Data Engineer bei bakdata und arbeitet hauptsächlich an Data-Streaming-Projekten. Philipp interessiert sich für den Aufbau skalierbarer verteilter Systeme mit Open-Source- und Cloud-Technologien. Er hat große Erfahrung im Aufbau von Enterprise-Data-Streaming-Lösungen mit Apache Kafka. Philipp teilt sein Wissen mit der Community durch Open-Source-Projekte, Online-Artikel und als Sprecher auf Konferenzen und Meetup-Veranstaltungen.

Ramin Gharib
Ramin Gharib ist Software- und Data Engineer bei bakdata und arbeitet am Aufbau von Data Pipelines und verteilten Systemen mit Apache Kafka. Ein Schwerpunkt seiner Arbeit liegt im Bereich DevOps und der Breitstellung von verteilten Systemen in der Cloud. Ramin ist ein aktiver Entwickler in der Open-Source-Community und baut Open-Source Tools basierend auf Apache Kafka.

Gold-Sponsoren

InterSystems
INNOQ
PRODATO

Silber-Sponsoren

HMS Analytical Software
inovex

Bronze-Sponsor

andrena

data2day-Newsletter

Sie möchten über die data2day
auf dem Laufenden gehalten werden?

 

Anmelden