Zurück

Lokale Sprachmodelle beschleunigen mit Multi-Token Prediction

Große Sprachmodelle wie ChatGPT nutzt inzwischen fast jeder. Neben den unbestreitbaren Vorteilen dieser Systeme gibt es allerdings auch einige Probleme. So findet die Datenverarbeitung bei amerikanischen (oder gar chinesischen) Cloud-Dienstleistern statt, die auch nicht garantieren, dass die Daten nicht als Trainingsdaten für die Verbesserung ihrer eigenen Modelle verwendet werden.

Für einige Daten (etwa solche mit Personenbezug oder Geschäftsgeheimnisse) ist das angesichts der geltenden Regulatorik keine Option. Hier gibt es aber die Möglichkeit, auf lokale Sprachmodelle zurückzugreifen, die auf eigener Hardware komplett autark und souverän laufen (und dazu nicht mal Kontakt mit dem Internet benötigen). Nur wenige Unternehmen verfügen allerdings über eine IT-Infrastruktur, die mit jener der Cloud-Anbieter vergleichbar ist. Daher arbeiten die Modelle lokal oft nicht so schnell.

Dieser Vortrag zeigt, wie sich lokale Sprachmodelle um mehrere Faktoren beschleunigen lassen. Dazu können beispielsweise Quantisierung, Multi-Token Prediction oder Multi-Stream-Verarbeitung genutzt werden. Auch kleinere Modelle wie die Liquid Foundation Models bieten erheblich höhere Geschwindigkeiten und können etwa in RAG-Szenarien eingesetzt werden.

Die Modelle werden im Vortrag live vorgeführt, die dazu notwendige Hardware genau beschrieben. Abschließend folgt eine Empfehlung, welche Modelle sich für welche Szenarien (Anzahl der Anwender, Budget usw.) am besten eignen und wie die User Experience damit optimiert werden kann.

Lernziele

Du lernst

Multi-Token Prediction (MTP) und Speculative Decoding zu verstehen
Optimierungsmöglichkeiten durch Parallelverarbeitung kennen
Optimierte Software, Quantisierung und Deployment einsetzen zu können.

Speaker

Christian Winkler beschäftigt sich seit vielen Jahre mit künstlicher Intelligenz, speziell in der automatisierten Analyse natürlichsprachiger Texte (NLP). Als Professor an der TH Nürnberg konzentriert sich seine Forschung auf die Optimierung von User Experience mithilfe moderner Verfahren. Er forscht und publiziert zu Natural Language Processing und ist regelmäßig Sprecher auf Machine Learning-Konferenzen.
LinkedIn