Skalierbare Datenanalyse mit IPython
Das Python-basierte Open-Source-Ökosystem rund um IPython, Jupyter, Numpy, Pandas, Matplotlib usw. hat sich in den letzten Jahren in der Data-Science-Comunity fest etabliert. Mit der neusten Version von IPython lassen sich nun mit IPython.parallel auch recht einfach skalierbare verteilte Anwendungen realisieren.
Der Vortrag gibt eine kurze Einführung in die IPython-Welt und zeigt dann anhand von Beispielen, wie sich eine Skalierung von Muti-Core-Systemen über die Cloud bis hin zu HPC-Clustern umsetzen lässt. Dabei werden insbesondere die Vorteile von IPythons Fähigkeit zur Umsetzung asynchroner Kommunikationsmodelle betrachtet und die Vor- und Nachteile gegenüber Python-Lösungen mit Hadoop und Spark diskutiert.
Vorkenntnisse
Grundlagen in den Python-Tools (IPython, Numpy, Scipy, Matplotlib, Pandas ...) sind von Vorteil, aber nicht zwingend.
Lernziele
Ziel ist es zu zeigen, wie einfach mit IPython skalierbare Big-Data-Anwendungen in die die Cloud gebracht werden können. Dies soll anhand mehrerer Use-Cases demonstriert und die Vor- und Nachteile gegenüber Hadoop/Spark-Lösungen diskutiert werden. Als Resultat sollen Zuhörer in der Lage sein abzuschätzen, ob sich IPython.parallel für ihre Projekte eignen könnte. Die Vorteile asynchroner Kommunikationsmodelle sollen verdeutlicht werden.