Zurück

Deploy with Confidence: Generative KI systematisch evaluieren

Dank moderner Frameworks sind LLMs schnell mit eigenen Datenquellen verknüpft. Doch die große Herausforderung liegt in der Messbarkeit: sind generierte Antworten faktisch korrekt oder nur gut klingende Halluzinationen?

Dieser Vortrag zeigt Best-Practices zur Evaluation von generiertem Text, z.B. in RAG-Systemen.

Während Retrieval-Metriken zuverlässig die Suche evaluieren, stoßen NLP-Metriken wie ROUGE bei der Antwortqualität an ihre Grenzen. Anhand von Praxisbeispielen wird demonstriert, wie LLM-as-a-Judge zur Qualitätskontrolle und Optimierung des Systems eingesetzt werden kann, ohne auf händisch erstellte "Golden Answers" angewiesen zu sein, und welche Fallstricke es zu beachten gibt.

Vorkenntnisse

Grundlagen von LLMs und Retrieval Augmented Generation (RAG)
Grundlagen der Evaluierung von Machine-Learning-Systemen (Accuracy, Recall, etc.)

Lernziele

Dieser Talk bringt dir folgende Punkte näher:

Die Erkenntnis, dass man KI-Systeme testen kann (und vor allem wie)
Ein Verständnis der Problematik beim Evaluieren von generativer KI
Die Einsatzgebiete und Grenzen von klassischen NLP-Metriken
Prinzip und Fallstricke von LLM-as-a-Judge

Speaker

Jan Trienes ist Data & Machine Learning Engineer im IT-Projekthaus inovex GmbH. Er hilft Kunden bei der Konzeption und Entwicklung von datengetriebenen Anwendungen. Während seiner Promotion in der Informatik hat er Methoden entwickelt, mit denen Sprachmodelle in Domänen wie der Medizin zuverlässiger interpretiert und evaluiert werden können.
LinkedIn

Matthias Richter ist seit 2019 Machine Learning Engineer bei inovex und liebt es, tief in die Algorithmen generativer KI einzutauchen. In der Praxis wendet er konsequent die wissenschaftliche Methode an, um Systeme messbar zu machen und verlässliche, robuste Software zu entwickeln.
LinkedIn