Offene KI-Modelle: frei nutzbar, nicht gratis

"Open Source" klingt nach Freiheit und Nulltarif. Bei KI-Modellen stimmt das — halb. Offene Modelle sind ein Riesending, oft erstaunlich gut, und trotzdem zahlst du am Ende vielleicht doch. Widersprüchlich? Ist es auch. Dröseln wir das auf.

Was heißt "offen" überhaupt?

Bei einem offenen KI-Modell werden die Gewichte öffentlich zum Download bereitgestellt — also die Milliarden Zahlen, die das Modell ausmachen, quasi sein "Gehirn". Jeder darf sie laden, nutzen, anpassen. Meist unter einer Lizenz wie Apache 2.0 oder MIT, die sogar kommerzielle Nutzung erlaubt — gebührenfrei.

Die Schwergewichte 2026: Metas Llama 4, DeepSeek V4, Qwen 3.5 von Alibaba, Googles Gemma 4, Mistral aus Frankreich. Viele davon spielen inzwischen in derselben Liga wie die geschlossenen Modelle von OpenAI oder Anthropic.

Ein wichtiger Stolperstein: "offene Gewichte" ist nicht dasselbe wie "Open Source" im klassischen Sinn. Du bekommst das fertige Modell, aber selten die kompletten Trainingsdaten oder das Rezept dahinter. Du darfst es benutzen — nachkochen kannst du es nicht.

Wie gut sind die wirklich?

Erstaunlich gut. Auf neutralen Ranglisten liegt das beste offene Modell (derzeit Kimi K2 von Moonshot) auf Platz eins der offenen — und gesamt unter den besten fünf, dicht hinter der geschlossenen Spitze. Beim Programmieren zieht DeepSeek V4 sogar gleich.

Ehrliche Einordnung: Die allerobersten Plätze halten noch die geschlossenen Modelle von OpenAI, Google und Anthropic. Aber der Abstand ist klein — und er schrumpft. Für die allermeisten Alltagsaufgaben merkst du keinen Unterschied. (Stand: Juni 2026.)

Warum läuft das nicht auf meinem Notebook?

Hier kommt die Ernüchterung. Ein modernes Spitzenmodell hat hunderte Milliarden Parameter (die einstellbaren Werte im Modell). DeepSeek V4 rangiert im Bereich von rund einer Billion. Diese Zahlen müssen alle in den Speicher — am besten in den schnellen Grafikspeicher (VRAM) einer dicken Grafikkarte.

Faustregel: Ein Modell braucht grob so viele Gigabyte Speicher, wie es Milliarden Parameter hat. Ein 70-Milliarden-Modell will also locker 40 bis 70 GB. Dein Notebook hat vielleicht 16 GB RAM und eine Grafikkarte mit 8. Das passt nicht — nicht mal annähernd.

Was läuft: kleine Modelle. Gemma in der 2- bis 4-Milliarden-Variante, ein kompaktes Qwen, ein Phi. Die sind für viele Alltagsaufgaben nützlich — aber eben nicht das Gehirn, das die Schlagzeilen macht. Wie man die Kleinen lokal startet, steht im Ollama-Artikel.

Und warum kostet die API dann Geld?

Genau hier knackt der Denkfehler. Das Modell ist gratis. Das Ausführen ist es nicht.

Nutzt du ein offenes Modell über eine API (eine Programmierschnittstelle, über die dein Gerät den Server anspricht) — etwa bei Anbietern wie DeepInfra, Together oder Fireworks — dann läuft das Ding auf deren Servern. Und diese Server stecken voller Grafikkarten wie der Nvidia H100, deren Miete bei rund 2 bis 4 Dollar pro Stunde liegt. Pro Karte. Ein großes Modell braucht oft vier davon gleichzeitig.

Dazu kommen Strom, Kühlung, Wartung und die Leute, die das am Laufen halten. Irgendwer zahlt diese Rechnung — und das bist am Ende du, pro verarbeitetem Token (grob: pro Wortbaustein).

Die gute Nachricht: günstig ist es trotzdem. Kleine Modelle gibt es ab etwa 0,06 Dollar pro Million Tokens, große Modelle pendeln um die 2 Dollar. Für normale Nutzung redet man über Cent, nicht über Euro. (Alle Preisangaben Stand: Juni 2026 — der Markt bewegt sich schnell.)

Was heißt das für mich?

Kostenlos selbst betreiben? Geht — aber nur mit kleinen Modellen, und du brauchst genug RAM. Datenschutz top, Leistung begrenzt.
Großes offenes Modell nutzen? Per API, gegen Geld. Oft deutlich billiger als ein ChatGPT-Abo, dafür musst du dich um den Zugang kümmern.
Für wen? Lokal: für Bastler und Datenschutz-Fans. API: für alle, die ein starkes Modell wollen, ohne eigene Hardware — auch ohne Programmierkenntnisse, über Dienste wie OpenRouter.

Offene Modelle sind großartig. Sie sind nur nicht gratis im Sinne von "kostet nie etwas". Sie sind frei im Sinne von "darf jeder nutzen". Zwei verschiedene Dinge — und genau dieser Unterschied entscheidet, ob du am Ende Strom oder eine API-Rechnung zahlst.