KI on-Premise betreiben: On-Premise, OSS, GPU und APU

Diese Frage taucht in Gesprächen mit technischen Führungskräften immer wieder auf: Kann man ein leistungsstarkes KI-Modell intern betreiben, ohne Daten an OpenAI oder Anthropic zu senden?

Die kurze Antwort: Ja, und es ist einfacher, als man denkt. Die lange Antwort: Das hängt von der Größe des Modells, den erforderlichen Leistungsanforderungen und dem Budget für die Hardware ab.

Was ist eine On-Premise-Bereitstellung?

„On-Premise“ bedeutet, dass das Modell auf Ihrer eigenen Infrastruktur läuft und nicht auf den Servern eines Drittanbieters. Ihre Daten verlassen Ihr Netzwerk nicht. Sie haben die Kontrolle über die Versionen. Es fallen keine zusätzlichen Kosten pro Abfrage an (lediglich die Infrastrukturkosten).

Das bedeutet nicht zwangsläufig eine geringere Leistungsfähigkeit. Im Jahr 2025 erreichen die besten Open-Source-Modelle (Llama 3 70B, Qwen 2.5 72B, Mistral Large 2) bei vielen spezialisierten Aufgaben eine Leistungsfähigkeit, die mit der proprietärer Modelle vergleichbar ist. Der Leistungsunterschied ist bei sehr allgemeinen Aufgaben und komplexen Denkprozessen zwar weiterhin erkennbar, hat sich jedoch deutlich verringert.

APUs: die erschwingliche Überraschung

Die stille Revolution der letzten zwei Jahre findet bei den APUs statt – Prozessoren, die CPU und GPU auf einem Chip vereinen und über einen gemeinsamen Speicher mit hoher Bandbreite verfügen.

Der Apple M4 Max (verfügbar ab Ende 2024) verfügt über 128 GB einheitlichen Speicher mit einer Bandbreite von 500 GB/s. Ein in Q4 quantisiertes Llama 3 70B-Modell (das auf ~40 GB passt) läuft auf diesem Rechner mit 15–20 Tokens pro Sekunde. Das reicht für den interaktiven Einsatz, liegt deutlich unter der Geschwindigkeit einer Cloud-API, aber im Rahmen einer Chat-Schnittstelle.

Ein Mac Studio M4 Ultra mit 192 GB kostet etwa 4.000 bis 5.000 Euro. Er kann ein 70B-Modell lokal ausführen, ohne separate GPU, bei einem Stromverbrauch von 80–100 W. Für ein KMU oder eine Beratungsfirma, die sensible Daten verarbeitet und täglich 50–200 Abfragen durchführt, kann sich die Investition angesichts der API-Kosten über einen Zeitraum von 2–3 Jahren rechnen.

GPUs: der klassische Weg für große Stückzahlen

Bei größeren Datenmengen oder umfangreicheren Modellen ist die GPU nach wie vor der Maßstab.

Ein Server mit 2 NVIDIA RTX 4090-GPUs (jeweils 24 GB VRAM, ca. 1.500 Euro pro Stück (Preisstand 2026)) kann ein Modell mit 7–13 Milliarden Parametern mit komfortabler Geschwindigkeit ausführen. Für ein Modell mit 70 Milliarden Parametern sind 4 bis 8 GPUs oder professionelle GPUs erforderlich (H100: über 30.000 Euro, A100: über 15.000 Euro).

Auch die dazugehörige Infrastruktur verursacht Kosten: geeigneter Server, Kühlung, USV, Systemverwaltung. Rechnen Sie mit 30 bis 50 % der GPU-Kosten für die dazugehörige Infrastruktur.

Die Tools, die das möglich machen

Im Jahr 2023 erforderte der lokale Betrieb eines LLM noch tiefgreifende Fachkenntnisse. Im Jahr 2025 haben verschiedene Tools die Handhabung radikal vereinfacht:

Ollama: Installation eines lokalen LLM mit einem einzigen Befehl (ollama run llama3.2). Die Schnittstelle ist mit der OpenAI-API kompatibel, sodass Ihre Anwendungen auf Ihre lokale Instanz verweisen können.

llama.cpp: Eine für CPU und GPU optimierte Inferenz-Engine, die als Grundlage für zahlreiche Tools dient. Unterstützt Quantisierung und läuft unter Windows, Linux und macOS.

Open WebUI: Eine mit Ollama kompatible lokale Weboberfläche. Eine originalgetreue Nachbildung des ChatGPT-Erlebnisses, jedoch auf Ihrer eigenen Infrastruktur.

LM Studio: Desktop-Anwendung (Windows/Mac) zum Herunterladen und Ausführen lokaler Modelle mit grafischer Benutzeroberfläche.

Was das nicht löst

Die Bereitstellung vor Ort löst das Problem des Datenschutzes. Sie löst jedoch weder das Problem der Antwortqualität bei komplexen Aufgaben (proprietäre State-of-the-Art-Modelle sind nach wie vor überlegen) noch das der Modellaktualisierung (Sie verwalten den Lebenszyklus) oder das der Infrastruktursicherheit (Sie tragen die Verantwortung für die Absicherung Ihres Servers).

Das ist ein Kompromiss. Souveränität hat ihren Preis in Form von internen Ressourcen. Die Entscheidung muss bewusst getroffen werden, nicht aus Mangel an Alternativen.

Was ist eine On-Premise-Bereitstellung?#

APUs: die erschwingliche Überraschung#

GPUs: der klassische Weg für große Stückzahlen#

Die Tools, die das möglich machen#

Was das nicht löst#

Verwandte Artikel

Open Source vs. proprietär: Kontrolle, Abhängigkeit und der echte Kompromiss

Was ist eine On-Premise-Bereitstellung?

APUs: die erschwingliche Überraschung

GPUs: der klassische Weg für große Stückzahlen

Die Tools, die das möglich machen

Was das nicht löst