Zurück

Wenn der Weg das Ziel ist: Agenten-Loops systematisch tracen und evaluieren

RAG war gestern, heute bauen wir Agenten – doch arbeitet der auch so wie er soll?

Wer Agenten-Loops nur am Ende per LLM-as-a-Judge prüft, winkt einen Pull Request durch, nur weil die App startet – dass im Hintergrund bei jedem Klick die ganze Datenbank lädt, zeigt erst die nächste Rechnung vom Hyperscaler.

Wir demonstrieren eine moderne Evaluationskette:

Wie sammelt man Traces für nonlineare Konversationen?
Welche deterministischen und probabilistischen Metriken bewerten kleinschrittig Tool-Use und Reasoning?

Darauf aufbauend zeigen wir einen erfahrungsbasierten und skalierbaren Workflow zur kontinuierlichen Systemoptimierung.
Wir zeigen Metriken, die fehlerhafte Reasoning-Loops und Tool-Abstürze systematisch entlarven.

Das Ziel: Ein praxiserprobter Workflow, mit dem Sie Ihre Agenten kontinuierlich evaluieren und iterativ stabilisieren.

Stoppen Sie den Blindflug zwischen Prompt und Output!

Vorkenntnisse

Ein Grundverständnis von LLMs und KI-Agenten wird vorausgesetzt.
Ebenso wichtig ist Vorwissen zur Evaluation via LLM-as-a-Judge (z.B. aus „Vom Score zum Judge: Kontext-basierte KI-Systeme systematisch evaluieren“).
Erste Erfahrung mit Tracing und OpenTelemetry ist ein Plus, aber kein Muss.

Lernziele

Teilnehmende verstehen

warum simple Input-Output-Metriken bei Agenten scheitern
und lernen, wie Traces und Spans komplexe Agenten-Aktionen lückenlos erfassen

Speaker

Max Vieweg arbeitet seit seinem Physik- und Data-Science-Studium als ML Engineer bei inovex. Sein Herzensthema: wissenschaftliche Best Practices in die industrielle Praxis zu überführen. Praktische Erfahrungen sammelte er zuletzt bei der Entwicklung multimodaler RAG-Systeme und der erfolgreichen Integration von KI-Agenten in produktive Applikationen.
LinkedIn

Denise Hartmann bringt Expertise in Mathematik und Data Science als Data & ML Engineer bei inovex ein. Ihr Schwerpunkt liegt auf Generativer KI und Datenanalyse. Ihr ist wichtig, Agent-Workflows aus der "Trial-and-Error"-Ecke zu holen. Sie setzt auf das, was für Data Scientists Standard ist: Systematische Evaluation als Basis für messbare, verlässliche und produktive KI-Anwendungen.
LinkedIn