Große Sprachmodelle beschleunigen
Große Sprachmodelle wie ChatGPT nutzt inzwischen fast jeder. Neben den unbestreitbaren Vorteilen dieser Systeme gibt es allerdings auch einige Probleme. So findet die Datenverarbeitung bei amerikanischen (oder gar chinesischen) Cloud-Dienstleistern statt, die auch nicht garantieren, dass die Daten nicht als Trainingsdaten für die Verbesserung ihrer eigenen Modelle verwendet werden.
Für einige Daten (etwa solche mit Personenbezug oder Geschäftsgeheimnisse) ist das angesichts der geltenden Regulatorik keine Option. Hier gibt es aber die Möglichkeit, auf lokale Sprachmodelle zurückzugreifen, die auf eigener Hardware komplett autark und souverän laufen (und dazu nicht mal Kontakt mit dem Internet benötigen). Nur wenige Unternehmen verfügen allerdings über eine IT-Infrastruktur, die mit jener der Cloud-Anbieter vergleichbar ist. Daher arbeiten die Modelle lokal oft nicht so schnell.
Dieser Vortrag zeigt, wie sich lokale Sprachmodelle um mehrere Faktoren beschleunigen lassen. Dazu können beispielsweise Quantisierung, Multi-Token Prediction oder Multi-Stream-Verarbeitung genutzt werden. Auch kleinere Modelle wie die Liquid Foundation Models bieten erheblich höhere Geschwindigkeiten und können etwa in RAG-Szenarien eingesetzt werden.
Die Modelle werden im Vortrag live vorgeführt, die dazu notwendige Hardware genau beschrieben. Abschließend folgt eine Empfehlung, welche Modelle sich für welche Szenarien (Anzahl der Anwender, Budget usw.) am besten eignen und wie die User Experience damit optimiert werden kann.