Praktisches Data-Science-Projekt für Einsteiger am Beispiel "Produktempfehlung"

Data Science stößt aus den unterschiedlichsten Disziplinen auf großes Interesse. Dies kann dazu führen, dass Anfänger nicht ausreichend mit grundlegenden Konzepten der Mathematik oder der Informatik vertraut sind. Das Verständnis dieser Grundlagen ist jedoch wichtig, um als Data Scientist erfolgreich arbeiten zu können.

Wir betrachten deswegen in diesem Tutorial ein Konzept im Detail: Datenpunkte als n-dimensionale Vektoren. Damit können wir mathematische Begriffe wie Abstand und Winkel direkt auf unsere Daten anwenden, um ein Produktempfehlungs-Problem intuitiv zu lösen.

In diesem Tutorial werden wir nur die Module numpy und pandas verwenden. Wir möchten so zeigen, dass auch Einsteiger komplexe datenwissenschaftliche Probleme lösen können, ohne unbedingt die neuesten Algorithmen des maschinellen Lernens einzusetzen.

Um ein besseres Verständnis des Datenanalyseprozesses zu erhalten, werden wir die wichtigen Schritte mit matplotlib und seaborn visualisieren. Grundlegende Python-Kenntnisse reichen aus, um an diesem Tutorial teilzunehmen. Die Teilnehmer müssen keine Software im Voraus installieren, da wir einen Zugang zu unserer Jupyter-basierten Programmierinfrastruktur über den Browser bereitstellen. Nach einer kurzen Einführung wird der Workshop im Selbststudium durchgeführt, sodass jeder Teilnehmer entsprechend der eigenen Fähigkeiten vom Workshop profitieren kann. Unser Team steht jederzeit unterstützend zur Seite. Die Teilnehmer haben auch nach dem Workshop Zugriff auf die Materialien, sodass sie weiterlernen können.

Vorkenntnisse

Grundkenntnisse in Python

Lernziele

In diesem Tutorial konzentrieren wir uns auf ein mathematisches Konzept, mit dem Einsteiger vielleicht nicht vertraut sind: Datenpunkte als Vektoren.
Mit diesem Konzept lösen wir ein Problem der Produktempfehlung, indem wir nur die Module numpy und pandas für die Datenverarbeitung und -analyse verwenden. Wir visualisieren die Daten und Ergebnisse mithilfe von matplotlib und seaborn. Anschließend nutzen wir die gesammelten Erkenntnisse, um das beliebte Data-Science-Modul scikit-learn kennenzulernen.

 

Agenda

    1. Datenbereinigung mit Pandas (90 Minuten)
  • Datenquellen einlesen
  • Entfernen/Ersetzen fehlender und falscher Daten
  • Statistische Kurzauswertungen und Visualisierungen

Kaffeepause (15 bis 30 Minuten)

    2. Empfehlungssysteme mit NumPy (90 Minuten)
  • Geometrische Interpretation von Vektoren
  • Abstände von Datenpunkten und Winkel von Vektoren
  • Produktempfehlung auf Basis unterschiedlicher Metriken

Mittagspause (45 bis 60 Minuten)

    3. Ausblick unter Verwendung von scikit-learn (90 Minuten)
  • Erstellung und Parametrisierung von Pipelines
  • Datenaufbereitung mit sklearn
  • Klassifizierungsalgorithmus: K-nearest-neighbour

Pausenzeiten
ab 8.30: Registrierung und Begrüßungskaffee
9.30: Beginn
11.00 - 11.15: Kaffeepause
12.30 - 13.30: Mittagspause
15.30 - 15.45: Kaffeepause
ca. 17.00 Uhr: Ende

 

Technische Anforderungen:

Wir würden es begrüßen, wenn die Teilnehmer ihre eigenen Laptops mitbringen. Wir stellen ihnen dann einen Zugang zu unseren virtuellen Entwicklungsumgebung, dem Datalab, in der sie programmieren, zur Verfügung.

Speaker

 

Thomas Kranzkowski
Thomas Kranzkowski ist Data Scientist bei StackFuel. Thomas betreut Teilnehmer in Online-Schulungen und Webinaren in Data Analytics und Data Science mit Fokus auf Python. Nach seinem Ökonomie-Studium (B.Sc.) mit quantitativem Schwerpunkt setzte er seine Ausbildung in Data Science (M.Sc.) fort. Neben einigen Jahren Erfahrung in der Industrie bringt er auch Kompetenzen in der Planung und Durchführung von KI- und Digitalkonferenzen mit.

Gold-Sponsoren

HMS
Structr

Silber-Sponsoren

codecentric
Phytec

Bronze-Sponsor

incontext.technology GmbH

data2day-Newsletter

Sie möchten über die data2day
auf dem Laufenden gehalten werden?

 

Anmelden