Zurück

Praktisches Data-Science-Projekt für Einsteiger am Beispiel "Produktempfehlung"

Data Science stößt aus den unterschiedlichsten Disziplinen auf großes Interesse. Dies kann dazu führen, dass Anfänger nicht ausreichend mit grundlegenden Konzepten der Mathematik oder der Informatik vertraut sind. Das Verständnis dieser Grundlagen ist jedoch wichtig, um als Data Scientist erfolgreich arbeiten zu können.

Wir betrachten deswegen in diesem Tutorial ein Konzept im Detail: Datenpunkte als n-dimensionale Vektoren. Damit können wir mathematische Begriffe wie Abstand und Winkel direkt auf unsere Daten anwenden, um ein Produktempfehlungs-Problem intuitiv zu lösen.

In diesem Tutorial werden wir nur die Module numpy und pandas verwenden. Wir möchten so zeigen, dass auch Einsteiger komplexe datenwissenschaftliche Probleme lösen können, ohne unbedingt die neuesten Algorithmen des maschinellen Lernens einzusetzen.

Um ein besseres Verständnis des Datenanalyseprozesses zu erhalten, werden wir die wichtigen Schritte mit matplotlib und seaborn visualisieren. Grundlegende Python-Kenntnisse reichen aus, um an diesem Tutorial teilzunehmen. Die Teilnehmer müssen keine Software im Voraus installieren, da wir einen Zugang zu unserer Jupyter-basierten Programmierinfrastruktur über den Browser bereitstellen. Nach einer kurzen Einführung wird der Workshop im Selbststudium durchgeführt, sodass jeder Teilnehmer entsprechend der eigenen Fähigkeiten vom Workshop profitieren kann. Unser Team steht jederzeit unterstützend zur Seite. Die Teilnehmer haben auch nach dem Workshop Zugriff auf die Materialien, sodass sie weiterlernen können.

Vorkenntnisse

Grundkenntnisse in Python

Lernziele

In diesem Tutorial konzentrieren wir uns auf ein mathematisches Konzept, mit dem Einsteiger vielleicht nicht vertraut sind: Datenpunkte als Vektoren.
Mit diesem Konzept lösen wir ein Problem der Produktempfehlung, indem wir nur die Module numpy und pandas für die Datenverarbeitung und -analyse verwenden. Wir visualisieren die Daten und Ergebnisse mithilfe von matplotlib und seaborn. Anschließend nutzen wir die gesammelten Erkenntnisse, um das beliebte Data-Science-Modul scikit-learn kennenzulernen.

Agenda

Datenquellen einlesen
Entfernen/Ersetzen fehlender und falscher Daten
Statistische Kurzauswertungen und Visualisierungen

Kaffeepause (15 bis 30 Minuten)

Geometrische Interpretation von Vektoren
Abstände von Datenpunkten und Winkel von Vektoren
Produktempfehlung auf Basis unterschiedlicher Metriken

Mittagspause (45 bis 60 Minuten)

Erstellung und Parametrisierung von Pipelines
Datenaufbereitung mit sklearn
Klassifizierungsalgorithmus: K-nearest-neighbour

Pausenzeiten
ab 8.30: Registrierung und Begrüßungskaffee
9.30: Beginn
11.00 - 11.15: Kaffeepause
12.30 - 13.30: Mittagspause
15.30 - 15.45: Kaffeepause
ca. 17.00 Uhr: Ende

Technische Anforderungen

Wir würden es begrüßen, wenn die Teilnehmer ihre eigenen Laptops mitbringen. Wir stellen ihnen dann einen Zugang zu unseren virtuellen Entwicklungsumgebung, dem Datalab, in der sie programmieren, zur Verfügung.

Speaker

Thomas Kranzkowski ist Data Scientist bei StackFuel. Thomas betreut Teilnehmer in Online-Schulungen und Webinaren in Data Analytics und Data Science mit Fokus auf Python. Nach seinem Ökonomie-Studium (B.Sc.) mit quantitativem Schwerpunkt setzte er seine Ausbildung in Data Science (M.Sc.) fort. Neben einigen Jahren Erfahrung in der Industrie bringt er auch Kompetenzen in der Planung und Durchführung von KI- und Digitalkonferenzen mit.