20 Apr. val-E – unser KI Server
Warum ein lokales Large Language Modell?
Wird umgangssprachlich von Künstlicher Intelligenz berichtet, ist meist die Rede von Large Language Modellen (LLMs) wie GPT-5.4, deepseek-r1 oder Gemini 3. LLMs sind KI-Modelle, welche trainiert wurden, menschliche Sprache zu verstehen, zu generieren und zu verarbeiten.
Das Gelernte wird dabei nicht als Text gespeichert, sondern über Parameter numerisch gewichtet. Je größer die Parameteranzahl eines Modells, desto mehr wurde die Textgenerierungsfähigkeit beim Training angepasst. Vereinfacht gesagt: Large Language Modelle sind KI-Modelle für Sprache.
Um diese Modelle zu trainieren sind riesige Datenmengen notwendig. LLMs werden trainiert, indem sie aus großen Textmengen lernen, das nächste Wort (oder Wortteil / Token) vorherzusagen, wobei ihre Parameter schrittweise angepasst werden. Durch die enorme Anzahl an Parametern können diese Modelle sehr groß sein und benötigen entsprechend viel Rechenleistung (dazu zählen Graphical Processing Unit (GPU / Grafikkarte), Central Processing Unit (CPU / Prozessor) und Arbeitsspeicher) wodurch ihr Einsatz im Heimgebrauch häufig nur eingeschränkt oder mit spezialisierter Hardware möglich ist. Der Engpass und den größten Kostenfaktor stellt die GPU dar, da das Modell idealerweise vollständig in die GPU geladen werden sollte.
Aus diesem Grund werden die meisten frei verfügbaren LLMs als Cloud-Dienst betrieben. Daraus resultiert die Frage: Was passiert mit den eingebebenen Daten?
Bei Cloud-Modellen werden die eingegebenen Inhalte (z.B. E-Mails, Berichte, Dokumente) zur Verarbeitung an externe Server übertragen, um dort verarbeitet zu werden. Im privaten Gebrauch ist dies oft unproblematisch, im Unternehmensumfeld hingegen kann dies erhebliche Risiken bergen.
Insbesondere bei der Verarbeitung sensibler Informationen wie Kundendaten oder Geschäftsgeheimnissen entstehen Herausforderungen im Hinblick auf Datenschutz und Compliance. „Wo werden Daten verarbeitet?“, „Wer hat Zugriff?“ und „Wie sind diese Daten geschützt?“ sind Fragen, die ein Unternehmen gemäß DSGVO zu jedem Zeitpunkt beantworten können muss. Der Einsatz von externen Cloud-Modellen erschwert dies erheblich.
Die Lösung für das Problem ist zunächst simpel: die Verwendung eines lokalen LLMs. Dadurch können Unternehmen die Vorteile von LLMs nutzen, ohne dabei ein Risiko bei der Datensicherheit einzugehen. Diese Modelle werden in der eigenen IT-Infrastruktur betrieben werden. Dabei gibt es die Möglichkeit dies mit einem physischen Server vor Ort zu realisieren oder mit einem gemieteten Cloud-Server Infrastruktur. Der Vorteil dabei ist, alle Daten bleiben im Unternehmen und werden nicht an Dritte weitergegeben. Dem LLM kann eine Wissensdatenbank für alle Nutzer zur Verfügung gestellt werden, wodurch Berichte, Texte, E-Mails etc. anhand von hinterlegten Daten erzeugt werden können.
Natürlich bringt der Betrieb eines lokalen LLMs ganz eigene Herausforderungen mit sich. Die Infrastruktur muss aufgebaut, gewartet und das passende Modell im Hinblick auf den Nutzen evaluiert werden. Dies ist an die verfügbare Rechenleistung und weiteren Anforderungen gekoppelt. Dennoch zeigt sich das ein lokales LLM kein Luxus für ein Unternehmen darstellt, sondern eine sinnvolle Investition in Datensicherheit und Datenkontrolle ist.
Zudem stellt die Begrenzung der GPU-Kapazität, wie bereits erwähnt, einen Engpass dar. Durch die Größe des von uns verwendeten Modells, gpt-oss-20B (14 GB) kann es natürlich nicht so leistungsstarksein, wie frei verfügbaren Cloud-Modelle (z.B. GPT5 hat ca. 500 Mrd. Parameter mit einer geschätzten Größe von ca. 400 GB) mit Abo-Nutzung.
Tatsächlich sind die Unterschiede aber nicht so groß wie sie zunächst erscheinen, was durch Tests verifiziert wurde.
In unserem Fall haben wir eine physische Workstation mit einer NVIDIA GeForce RTX 5060 Ti ausgestattet, sodass Modelle mit bis zu 20 Mrd. Parametern (ca. 14 GB) zuverlässig und schnell laufen. Die 16 GB VRAM der GPU sind ausreichend, um das Modell vollständig in die GPU zu laden. Als Unterstützung für das Laden des Modells in die GPU, für die Vorverarbeitung und das Puffern von Daten sind zudem 128 GB Arbeitsspeicher in der Workstation verbaut. Mit einem Speicherplatz von 1 TB kann dem Modell eine Wissensdatenbank (z.B. Geschäftsdatendaten, Regularien) bereitgestellt und die Outputs auf dem Server gespeichert werden. Anhand der Rückmeldungen der Nutzer innerhalb der validAID können wir die Wissensdatenbank erweitern und spezifizieren. Derzeit wird unser angepasstes Modell, intern liebevoll Val-E genannt, hauptsächlich genutzt für die Überprüfung von Regularien und das Schreiben von Dokumenten, welche Geschäftsdaten enthalten.
Als Ausblick stehen in der Zukunft eine Aufstockung der GPU an, um mit größeren Modellen arbeiten zu können und gegebenenfalls mehrere Modelle parallel für spezialisierte Aufgaben betreiben zu können.
Fazit
Lokale LLMs sind heutzutage ohne großen Aufwand / Kosten realisierbar und ermöglichen gute Arbeitsergebnisse bei DSGVO-gerechten Umgang mit sensiblen Daten. Zögern Sie nicht frühzeitig Kompetenzen in diesem Bereich aufzubauen, um für zukünftige Herausforderungen gerüstet zu sein.
Autor: Jörn Bünsack
Bild: KI