Mining Stream Data mit Apache Kafka
In Big-Data-Projekten sind Daten oftmals ein nicht endender Datenstrom. Auf diesen Datenströmen reicht es meist nicht aus, vorab erlernte Machine-Learning-Modelle anzuwenden, um die richtigen Entscheidungen zu treffen.
Auch benötigen die meisten ML-Verfahren immer alle Daten als Eingabe, um beispielsweise Entscheidungsbäume erfolgreich zu erlernen. Diese Offline-Verfahren können nicht in Echtzeit und mit hoher Geschwindigkeit direkt auf Datenströmen lernen.
In diesem Vortrag zeigen wir, wie mit Kafka Streams Entscheidungsbäume inkrementell auf Datenströmen erlernt und angewendet werden können. Der vorgestellte Ansatz lässt sich auch auf weitere Stream-Learning-Verfahren anwenden.
Vorkenntnisse
Interesse an den Themen Kafka, Datenströme und Machine Learning.
Lernziele
Es wird ein Verfahren vorgestellt, das es ermöglicht, Stream Learning mit Apache Kafka Streams effizient zu implementieren.