Eine Reise durch den Dschungel skalierbarer Machine-Learning-Systeme
Seit den letzten Jahren entwickelt sich Machine Learning zu einem Kernbestandteil vieler Unternehmen und Domänen. Stetig steigende Datenmengen und zunehmend komplexere Analytik führen in der Systemlandschaft zu der Entwicklung einer Reihe skalierbarer Machine-Learning-Plattformen mit unterschiedlichen Systemabstraktionen und Eigenschaften, um diesen Anforderungen gerecht zu werden. Systeme wie sog. "Parameter Server" stellen dem Anwender einen Satz an Low-level-Primitiven bereit und überlassen dem Anwender die Wahl und Umsetzung einer geeigneten Parallelisierungsstrategie.
Komplementäre Ansätze wie Spark und GraphLab dagegen basieren auf konkreten Ausführungsmodellen und stellen reichhaltige Programmierabstraktionen zur Umsetzung bereit. Das ermöglicht es dem Anwender, auf abstrakter(er) Ebene mit den Parallelisierungs- und Verteilungsaspekten von ML-Algorithmen umzugehen. Die diametrale Evolution der Systeme ist eine Folge des breiten Spektrums der zur Verfügung stehenden Verfahren. Aufgrund struktureller Eigenschaften erfordern viele Algorithmen unterschiedliche Parallelisierungs- und Ausführungsansätze, um effizient in großen Maßstab
eingesetzt werden zu können.
In diesem Vortrag werden eine Reihe unterschiedlicher Systemansätze und damit gekoppelten Programmiermodelle vorgestellt, für welche "Klasse an Problemen" sie geeignet sind.
Vorkenntnisse
Grundlagen im maschinellen Lernen, Grundlagen im Bereich Scalable Data Analytics (z.B MapReduce, Spark, Flink, ...)
Lernziele
Der Vortrag vermittelt einen Überblick (und eine Klassifizierung) über die reichhaltige Systemlandschaft skalierbarer ML-Plattformen.