Zurück

Daten auf Knopfdruck: Datengenerierung mit Sprachmodellen

Die Sammlung hochwertiger Trainingsdaten ist oft kostspielig und zeitaufwendig. Neue Entwicklungen zeigen, dass große Sprachmodelle (LLMs) synthetische Daten für Machine-Learning-Aufgaben generieren können und so den manuellen Erfassungsaufwand reduzieren.

Dieser Vortrag beleuchtet, wie LLMs zur Datengenerierung genutzt werden können, welche Risiken – wie Halluzinationen und Verzerrungen – dabei auftreten und welche Strategien es gibt, Effizienz und Zuverlässigkeit sicherzustellen.

Vorkenntnisse

Teilnehmende sollten ein grundlegendes Verständnis von Machine Learning und Sprachmodellen mitbringen.
Erfahrungen im Umgang mit Trainingsdaten, Modelltraining oder Evaluation sind hilfreich, aber nicht zwingend erforderlich.

Lernziele

Teilnehmende lernen,

wie große Sprachmodelle zur Generierung synthetischer Daten eingesetzt werden können.
Sie erfahren, wie sich Qualität, Vielfalt und Effizienz steigern lassen,
wie typische Fehler wie Halluzinationen vermieden werden,
und wie durch automatische Validierung die Zuverlässigkeit der Daten sichergestellt wird.

Speaker

Bertram Sändig ist COO von Ontolux und Experte für KI- und Machine-Learning-Systeme mit Schwerpunkt auf NLP und Neural Search. Er und sein Team bei Ontolux arbeiten daran, die Lücke zwischen aktueller Forschung und praktischer Anwendung zu schließen, indem sie große Sprachmodelle für skalierbare, praxisrelevante Geschäftsanwendungen anpassen, optimieren und integrieren.

Jetzt Tickets sichern