Daten auf Knopfdruck: Datengenerierung mit Sprachmodellen
Die Sammlung hochwertiger Trainingsdaten ist oft kostspielig und zeitaufwendig. Neue Entwicklungen zeigen, dass große Sprachmodelle (LLMs) synthetische Daten für Machine-Learning-Aufgaben generieren können und so den manuellen Erfassungsaufwand reduzieren.
Dieser Vortrag beleuchtet, wie LLMs zur Datengenerierung genutzt werden können, welche Risiken – wie Halluzinationen und Verzerrungen – dabei auftreten und welche Strategien es gibt, Effizienz und Zuverlässigkeit sicherzustellen.
Vorkenntnisse
- Teilnehmende sollten ein grundlegendes Verständnis von Machine Learning und Sprachmodellen mitbringen.
- Erfahrungen im Umgang mit Trainingsdaten, Modelltraining oder Evaluation sind hilfreich, aber nicht zwingend erforderlich.
Lernziele
Teilnehmende lernen,
- wie große Sprachmodelle zur Generierung synthetischer Daten eingesetzt werden können.
- Sie erfahren, wie sich Qualität, Vielfalt und Effizienz steigern lassen,
- wie typische Fehler wie Halluzinationen vermieden werden,
- und wie durch automatische Validierung die Zuverlässigkeit der Daten sichergestellt wird.