Konferenz für Big Data,
Data Science und Machine Learning
Heidelberg, Print Media Academy, 25.-28. September 2018

data2day 2018 » Programm »

Der Trainingsdatensatz von ML-Systemen vor und nach der DSGVO

Neben den Anforderungen zum sicheren Speichern, Transport und Zugang zu persönlichen Daten muss der Betreiber eines ML-Systems unter anderem begründen, wie die genutzten Daten adäquat, relevant und in angemessenem Umfang dem Zweck dienen und für wie lange sie gespeichert werden.

Abhängig davon, wie überzeugend die Begründung ist, könnten vor Inkrafttreten der DSGVO verfügbare Daten nicht mehr nutzbar sein. So könnte eine starke Begrenzung der Speicherungszeit die Trainingsdaten drastisch reduzieren. Wenn Die Nutzung einer Datenquelle nicht gerechtfertigt werden kann, führt das möglicherweise zum Wegfall von Features.

Im Vortrag erinnern wir an die Prinzipien, die der DSGVO zugrunde liegen, leiten die fürs Trainieren von ML-Modellen spezifischen Auswirkungen und diskutieren, wie man damit umgehen kann, sodass die Qualität der Vorhersagen möglichst erhalten bleibt.

Vorkenntnisse
Allgemeines Verständnis von ML-Algorithmen.

Lernziele
Wie sich die veränderte Verfügbarkeit von Trainingsdaten durch die DSGVO auf die Leistung eines ML-Systemen auswirken kann.

// Stanimir Dragiev Stanimir Dragiev

entwickelt als Teil von Zalando Payments das Machine-Learning-basierte Betrugserkennungssystem mit. Er schloss sein Informatikstudium an der TU Berlin mit einer Diplomarbeit über Resource Management in verteilten Systemen 2009 ab und promovierte 2014 im Machine Learning and Robotics Lab der Universität Stuttgart über Gegenstandsrepräsentationen zum Greifen mit Unsicherheiten.


l>