Praktisches Data-Science-Projekt für Einsteiger am Beispiel "Produktempfehlung"
Data Science stößt aus den unterschiedlichsten Disziplinen auf großes Interesse. Dies kann dazu führen, dass Anfänger nicht ausreichend mit grundlegenden Konzepten der Mathematik oder der Informatik vertraut sind. Das Verständnis dieser Grundlagen ist jedoch wichtig, um als Data Scientist erfolgreich arbeiten zu können.
Wir betrachten deswegen in diesem Tutorial ein Konzept im Detail: Datenpunkte als n-dimensionale Vektoren. Damit können wir mathematische Begriffe wie Abstand und Winkel direkt auf unsere Daten anwenden, um ein Produktempfehlungs-Problem intuitiv zu lösen.
In diesem Tutorial werden wir nur die Module numpy und pandas verwenden. Wir möchten so zeigen, dass auch Einsteiger komplexe datenwissenschaftliche Probleme lösen können, ohne unbedingt die neuesten Algorithmen des maschinellen Lernens einzusetzen.
Um ein besseres Verständnis des Datenanalyseprozesses zu erhalten, werden wir die wichtigen Schritte mit matplotlib und seaborn visualisieren. Grundlegende Python-Kenntnisse reichen aus, um an diesem Tutorial teilzunehmen. Die Teilnehmer müssen keine Software im Voraus installieren, da wir einen Zugang zu unserer Jupyter-basierten Programmierinfrastruktur über den Browser bereitstellen. Nach einer kurzen Einführung wird der Workshop im Selbststudium durchgeführt, sodass jeder Teilnehmer entsprechend der eigenen Fähigkeiten vom Workshop profitieren kann. Unser Team steht jederzeit unterstützend zur Seite. Die Teilnehmer haben auch nach dem Workshop Zugriff auf die Materialien, sodass sie weiterlernen können.
Vorkenntnisse
Grundkenntnisse in Python
Lernziele
In diesem Tutorial konzentrieren wir uns auf ein mathematisches Konzept, mit dem Einsteiger vielleicht nicht vertraut sind: Datenpunkte als Vektoren.
Mit diesem Konzept lösen wir ein Problem der Produktempfehlung, indem wir nur die Module numpy und pandas für die Datenverarbeitung und -analyse verwenden. Wir visualisieren die Daten und Ergebnisse mithilfe von matplotlib und seaborn. Anschließend nutzen wir die gesammelten Erkenntnisse, um das beliebte Data-Science-Modul scikit-learn kennenzulernen.