Ihr möchtet mit eurem Team teilnehmen? Ab drei Personen profitiert ihr von unseren Gruppenrabatten! Direkt im Shop buchen!

Datenqualität für ML jenseits der Basics: Methoden, Tools und blinde Flecken

Der EU AI Act fordert „repräsentative, fehlerfreie und vollständige" Trainingsdaten, doch typische Pipeline-Checks decken nur einen Bruchteil davon ab.

Wir geben einen Überblick über bestehende Tools zur Prüfung von Datenqualität und zeigen Forschungsfelder, die Lücken schließen könnten, aber unter dem Radar fliegen:

  • Data Attribution als daten-zentrische XAI-Methode,
  • Memorization-Effekte sowie
  • Verfahren zur Stichprobengrößenbestimmung, in Medizin etabliert, im ML-Kontext kaum beachtet.

    Vorkenntnisse

    Grundlegendes Verständnis von Machine-Learning-Workflows (Datenaufbereitung, Training, Evaluation)

    Lernziele

    Data Teams erhalten konkrete Werkzeuge und eine Einordnung an die Hand, welche Methoden praxisreif sind und wo sich ein genauerer Blick lohnt.

  • Speaker

     

    Danilo Brajovic
    Danilo Brajovic ist Projektleiter und wissenschaftlicher Mitarbeiter am Fraunhofer IPA in Stuttgart. Er forscht an vertrauenswürdiger KI für industrielle Anwendungen mit Fokus auf den Einfluss von Trainingsdaten auf ML-Modelle. Er hat zwei Masterabschlüsse (Informatik und Kognitionswissenschaften) der Universität Tübingen und während des Studiums bei Bosch, Daimler und dem MPI gearbeitet.
    LinkedIn