Zurück

Datenqualität für ML jenseits der Basics: Methoden, Tools und blinde Flecken

Der EU AI Act fordert „repräsentative, fehlerfreie und vollständige" Trainingsdaten, doch typische Pipeline-Checks decken nur einen Bruchteil davon ab.

Wir geben einen Überblick über bestehende Tools zur Prüfung von Datenqualität und zeigen Forschungsfelder, die Lücken schließen könnten, aber unter dem Radar fliegen:

Data Attribution als daten-zentrische XAI-Methode,

Memorization-Effekte sowie

Verfahren zur Stichprobengrößenbestimmung, in Medizin etabliert, im ML-Kontext kaum beachtet.

Vorkenntnisse

Grundlegendes Verständnis von Machine-Learning-Workflows (Datenaufbereitung, Training, Evaluation)

Lernziele

Data Teams erhalten konkrete Werkzeuge und eine Einordnung an die Hand, welche Methoden praxisreif sind und wo sich ein genauerer Blick lohnt.

Speaker

Danilo Brajovic ist Projektleiter und wissenschaftlicher Mitarbeiter am Fraunhofer IPA in Stuttgart. Er forscht an vertrauenswürdiger KI für industrielle Anwendungen mit Fokus auf den Einfluss von Trainingsdaten auf ML-Modelle. Er hat zwei Masterabschlüsse (Informatik und Kognitionswissenschaften) der Universität Tübingen und während des Studiums bei Bosch, Daimler und dem MPI gearbeitet.
LinkedIn