Ollama: KI auf dem eigenen PC | KI

Was, wenn deine KI-Anfragen nirgendwo hinkämen — außer auf deiner eigenen Festplatte? Kein Server in Übersee, kein Unternehmen, das mitlest, keine Terms of Service, über die man hinwegsehen muss. Genau das verspricht Ollama.

Was ist Ollama?

Ollama ist ein Tool, das große Sprachmodelle lokal auf deinem Computer laufen lässt. Du installierst es, lädst ein Modell herunter, und dann läuft die ganze KI auf deiner eigenen Hardware. Vollständig offline. Vollständig unter deiner Kontrolle.

Kein Account. Kein Abo. Kein "Ihre Daten helfen uns, den Service zu verbessern."

Was braucht man dafür?

Hier kommt die wichtigste Klarstellung: Nicht die GPU ist der Flaschenhals, sondern der RAM.

KI-Modelle werden komplett in den Arbeitsspeicher geladen. Wenn das Modell nicht in den RAM passt, läuft es entweder gar nicht oder quälend langsam. Als Faustregel:

8 GB RAM: Kleinere Modelle wie Phi-3 Mini oder Gemma 2B laufen gut
16 GB RAM: Llama 3.2 (3B oder 8B) läuft komfortabel
32 GB RAM: Llama 3 70B oder vergleichbare Modelle werden möglich

Eine dedizierte GPU ist ein Bonus — sie beschleunigt die Inferenz erheblich. Aber auch ohne GPU, rein auf der CPU, läuft Ollama. Es ist halt langsamer. Für gelegentliche Nutzung oft trotzdem brauchbar.

Welche Modelle laufen auf normalen Rechnern?

Ollama hat eine eigene Modell-Bibliothek unter ollama.com/library. Einige Empfehlungen für normale Hardware:

Llama 3.2 3B — Metas Modell, sehr flott, erstaunlich fähig für seine Größe
Gemma 3 4B — Googles kompaktes Modell, gut für Alltagsaufgaben
Phi-3 Mini — Microsofts kleines Kraftpaket, überraschend gut bei Reasoning
Mistral 7B — Etwas größer, aber auf 16-GB-Systemen gut nutzbar
Qwen 2.5 Coder — Für Code-Aufgaben speziell optimiert

Zum Vergleich: ChatGPT-4 hat vermutlich um die 1.000 Milliarden Parameter. Llama 3.2 3B hat — Überraschung — 3 Milliarden. Der Unterschied in der Qualität ist spürbar, aber für viele Aufgaben reicht das kleine Modell völlig aus.

Installation in drei Minuten

Auf ollama.com gehen und den Installer für dein Betriebssystem herunterladen (Windows, Mac, Linux — alles dabei)
Installieren, starten
Im Terminal: ollama run llama3.2 — das Modell wird heruntergeladen und gestartet

Danach kann man direkt im Terminal chatten. Oder man installiert ein Frontend.

OpenWebUI: Damit es auch schön aussieht

Das Terminal-Interface ist funktional, aber zugegeben nicht besonders einladend. OpenWebUI ist ein Browser-Frontend, das sich mit Ollama verbindet und wie eine aufgeräumte Chat-Oberfläche aussieht — ähnlich wie ChatGPT, nur lokal.

Ich betreibe beides selbst: Ollama im Hintergrund, OpenWebUI als Interface. Das macht den Alltag deutlich angenehmer.

Installation mit Docker ist ein Einzeiler — wer Docker hat, braucht nur zwei Minuten. Für alle anderen gibt es auch andere Wege, das ist aber schon mehr Basteln.

Wo ist der Haken?

Wäre wäre unfair, das zu verschweigen:

Langsamer: Lokale Modelle sind auf normaler Hardware deutlich langsamer als Cloud-KI. Nicht unerträglich, aber man sieht beim Denken zu.

Kleiner: Die Qualität der lokal laufenden Modelle reicht nicht an GPT-4o oder Claude Sonnet heran. Für einfache Aufgaben ist das egal, für komplexe Analysen merkt man den Unterschied.

Mehr Aufwand: Es ist kein "Account erstellen und losgehen". Man braucht ein bisschen technisches Interesse.

Für wen ist Ollama?

Für alle, denen Datenschutz wichtig ist und die bereit sind, dafür ein bisschen Komfort aufzugeben. Für Bastler, die gerne verstehen, was unter der Haube passiert. Für Entwickler, die Modelle lokal testen wollen.

Und für alle, die einfach mal sehen wollen: Wie fühlt es sich an, wenn die KI auf dem eigenen Rechner läuft?

Nächste Woche: Ein ehrlicher Meta-Post — wie dieser Blog selbst mit Claude Code entstanden ist.