Glossar — KI – halb so wild

KI-Texte sind voll mit Begriffen, die klingen, als hätte jemand zufällig aus einem Technik-Wörterbuch gezogen. Hier das Wichtigste in verständlichem Deutsch — von den Grundlagen bis in die Tiefsee. Du musst nicht alles kennen. Such dir raus, was dich gerade verwirrt.

Grundlagen

KI (Künstliche Intelligenz) Computersysteme, die Aufgaben übernehmen, für die man früher einen Menschen brauchte — Texte schreiben, Bilder erkennen, Sprache übersetzen. Kein Bewusstsein, kein Denken: cleveres Muster-Erkennen auf riesigen Datenmengen. Mehr dazu hier.

Prompt Die Eingabe, die du einem KI-System gibst. Wie du etwas fragst, beeinflusst massiv, was du zurückbekommst. Mehr dazu hier.

Halluzinieren KI erfindet Informationen, die nicht existieren — Zitate, Quellen, Fakten — und präsentiert sie als wahr. Nicht böse gemeint, strukturell unvermeidlich. Immer nachprüfen. Mehr dazu hier.

LLM (Large Language Model) Ein großes Sprachmodell. Das ist der technische Unterbau hinter ChatGPT, Claude, Gemini & Co. Es hat Milliarden von Textfragmenten verarbeitet und lernt daraus statistische Muster — keine Bedeutung, keine Absicht.

Token Wie KI Text verarbeitet — nicht Buchstabe für Buchstabe, sondern in Wortteilen. „Datenschutz" könnte z.B. 2–3 Token sein. Relevant für Kosten und Limits bei API-Nutzung.

Tokenizer Das kleine Programm, das deinen Text in Token zerlegt, bevor das Modell ihn überhaupt sieht. Verschiedene Modelle zählen unterschiedlich — deshalb passt mal mehr, mal weniger ins selbe Limit.

GPT (Generative Pre-trained Transformer) Der Modelltyp hinter ChatGPT: „generativ" (erzeugt Text), „pre-trained" (vorab auf riesigen Textmengen trainiert), „Transformer" (die zugrunde liegende Architektur). ChatGPT ist die App, GPT-4 & Co. sind die Modelle darunter.

Prompt Engineering Die Kunst, Prompts so zu formulieren, dass die KI brauchbar antwortet. Klingt fancy, ist oft einfach: präzise sein, Beispiele geben, Kontext liefern.

Open Source / Open Weights Das Modell (oder seine Gewichte) ist öffentlich zugänglich. Ollama nutzt solche Modelle. Vorteil: keine Cloud nötig, volle Datenkontrolle.

Wissens-Cutoff Der Stichtag, bis zu dem ein Modell mit Daten trainiert wurde. Danach weiß es nichts mehr — fragst du nach den News von gestern, rät es oder schweigt. Es sei denn, es darf live im Web suchen.

Lokale KI KI, die auf deinem eigenen Rechner läuft statt in der Cloud eines Anbieters. Nichts verlässt dein Gerät — maximaler Datenschutz, dafür brauchst du ordentliche Hardware. Beispiel: Ollama.

Multimodal Ein Modell, das mehr als Text versteht — z.B. auch Bilder, Audio oder PDFs. GPT-4o und Claude sind multimodal.

Neuronales Netz Das mathematische Grundgerüst hinter moderner KI: viele künstliche „Neuronen" in Schichten, die Signale gewichtet weiterreichen. Inspiriert vom Gehirn, aber bitte nicht zu wörtlich nehmen — es ist Statistik, kein Verstand.

API (Schnittstelle) Ein technischer Zugang, über den Programme direkt mit einem KI-Dienst reden — ohne Chatfenster, ohne Klicken. So bauen Entwickler KI in eigene Apps ein. Meist nach Verbrauch (Token) abgerechnet.

Reasoning Neuere Modelle „denken" vor der Antwort in Zwischenschritten nach, statt sofort loszuplappern. Das hilft bei Mathe, Logik und kniffligen Aufgaben — kostet aber mehr Zeit und Rechenleistung.

Fortgeschritten

RAG (Retrieval-Augmented Generation) Das Modell schaut sich vor der Antwort in einer Datenbank oder Dokumentensammlung um — und baut die gefundenen Infos in die Antwort ein. Perplexity macht das mit dem Web.

Kontextfenster (Context Window) Wie viel Text ein KI-Modell auf einmal „im Kopf" behalten kann. Ältere Modelle: wenige tausend Token. Neuere: hunderttausende. Alles außerhalb des Fensters vergisst das Modell.

Fine-Tuning Ein KI-Modell wird mit zusätzlichen Daten für eine spezifische Aufgabe weitertrainiert. Ergebnis: das Modell verhält sich in diesem Bereich kompetenter oder angepasster.

RLHF (Reinforcement Learning from Human Feedback) Menschen bewerten KI-Antworten als gut oder schlecht, das Modell lernt daraus. Der Grund, warum ChatGPT höflich antwortet statt einfach den wahrscheinlichsten Internet-Müll auszuspucken.

System Prompt Verborgene Anweisungen, die das Verhalten eines KI-Modells vorprogrammieren. Bevor du irgendetwas tippst, wurde das Modell oft schon mit Regeln gefüttert.

Temperature Ein Parameter, der steuert, wie „kreativ" oder „zufällig" die Antworten sind. Hohe Temperature = überraschender, manchmal wirrer. Niedrige = konsistenter, manchmal langweiliger.

Few-Shot Prompting Du gibst der KI im Prompt ein paar Beispiele, wie die Antwort aussehen soll. „So, so und so — jetzt mach das Gleiche." Erstaunlich wirksam.

Chain-of-Thought (CoT) Du bittest die KI, Schritt für Schritt zu denken, statt direkt zu antworten. Bei Logik- und Rechenaufgaben deutlich zuverlässiger. Die simple Version von Reasoning.

Vektordatenbank Speichert Texte nicht als Wörter, sondern als Zahlenlisten (Embeddings), die Bedeutung abbilden. So findet ein RAG-System inhaltlich Ähnliches, auch wenn kein einziges Wort übereinstimmt.

Embeddings Zahlenlisten, die die Bedeutung eines Textes abbilden. Ähnliche Inhalte landen nah beieinander — die Grundlage für semantische Suche und RAG.

KI-Agent Eine KI, die nicht nur antwortet, sondern selbstständig Schritte ausführt: Tools benutzen, im Web suchen, Dateien bearbeiten. Nützlich und gelegentlich beängstigend eigenwillig.

Inference Der Moment, in dem ein fertig trainiertes Modell tatsächlich arbeitet — also deine Frage beantwortet. Trainieren ist teuer und einmalig, Inference passiert bei jeder Anfrage.

Prompt Injection Ein Angriff, bei dem jemand versteckte Anweisungen einschmuggelt, um die KI zu kapern — z.B. „Ignoriere alle bisherigen Regeln". Das KI-Pendant zum Trickbetrug.

Instruction Tuning Ein Trainingsschritt, der einem Modell beibringt, Anweisungen zu folgen statt nur Text fortzusetzen. Der Unterschied zwischen „vervollständigt Sätze" und „macht, was du willst".

Guardrails (Safety-Filter) Schutzregeln, die verhindern sollen, dass die KI gefährliche, illegale oder peinliche Inhalte ausgibt. Mal sinnvoll, mal übervorsichtig, nie perfekt.

Parameter Die Stellschrauben im Inneren eines Modells, an denen das Training dreht. „70B" heißt 70 Milliarden davon. Mehr Parameter = oft schlauer, aber auch hungriger nach Speicher und Strom.

GPU / VRAM Die Grafikkarte (GPU) macht die KI-Rechenarbeit; ihr Spezialspeicher (VRAM) bestimmt, wie groß das Modell sein darf, das du lokal laufen lassen kannst. Zu wenig VRAM = das Modell passt nicht rein.

Quantisierung Ein Modell wird „komprimiert", indem seine Zahlen gröber gespeichert werden. Spart Speicher und macht große Modelle auf normaler Hardware lauffähig — kostet ein bisschen Genauigkeit.

MCP (Model Context Protocol) Ein offener Standard, über den KI-Modelle einheitlich auf Tools, Daten und Dienste zugreifen — eine Art USB-Stecker für KI. Mehr dazu hier.

SynthID Googles unsichtbares Wasserzeichen, das KI-generierte Bilder, Texte und Audio markiert. Soll helfen, Echtes von Generiertem zu unterscheiden. Mehr dazu hier.

C2PA (Content Credentials) Ein offener Standard, der wie ein digitaler Beipackzettel festhält, woher ein Bild stammt und wie es bearbeitet wurde. Mehr dazu hier.

Experte

Transformer / Self-Attention Die Architektur hinter fast allen modernen Sprachmodellen. „Self-Attention" lässt das Modell für jedes Wort gewichten, welche anderen Wörter im Satz gerade wichtig sind. Der Durchbruch von 2017, auf dem alles aufbaut.

Foundation Model Ein großes, allgemein trainiertes Basismodell, das als Fundament für viele Anwendungen dient — durch Fine-Tuning oder Prompts angepasst. GPT, Claude und Llama sind solche Fundamente.

LoRA (Low-Rank Adaptation) Eine sparsame Art des Fine-Tunings: Statt das ganze Modell neu zu trainieren, lernt man nur kleine Zusatzmatrizen. Schnell, günstig, und man kann mehrere „Aufsätze" tauschen.

PEFT (Parameter-Efficient Fine-Tuning) Der Oberbegriff für sparsame Fine-Tuning-Methoden (LoRA gehört dazu): nur ein winziger Teil des Modells wird angefasst, statt Milliarden Parameter neu zu lernen.

Embedding-Modell Ein spezialisiertes Modell, das Text nicht beantwortet, sondern in Embeddings (Bedeutungs-Zahlenlisten) umwandelt. Das Arbeitstier hinter Vektordatenbanken und RAG.

Reranker In RAG-Systemen die zweite Instanz: Sie sortiert die grob gefundenen Treffer noch einmal nach echter Relevanz. Erst grob suchen, dann fein sortieren.

Function Calling Die Fähigkeit eines LLM, strukturiert „Werkzeuge" aufzurufen — z.B. eine Wetter-API oder einen Taschenrechner — statt die Antwort zu erfinden. Die Grundlage vieler KI-Agenten.

Constitutional AI Anthropics Methode, einem Modell anhand schriftlicher Prinzipien („Verfassung") beizubringen, sich selbst zu korrigieren — statt für jede Regel menschliches Feedback zu brauchen.

Alignment Das Forschungsfeld, KI-Systeme dazu zu bringen, das zu tun, was Menschen wirklich wollen — und nicht bloß das, was wir wörtlich gesagt haben. Schwieriger, als es klingt.

Scaling Laws Beobachtung, dass Modelle vorhersehbar besser werden, wenn man Daten, Parameter und Rechenleistung erhöht. Der Grund, warum die Modelle immer größer wurden.

Catastrophic Forgetting Wenn ein Modell beim Nachtrainieren auf etwas Neues plötzlich Altes verlernt. Der Grund, warum man Fine-Tuning vorsichtig dosiert.

Knowledge Distillation Ein großes, schlaues Modell bringt einem kleinen das Wichtigste bei. Ergebnis: ein kompaktes Modell, das fast so gut, aber viel günstiger läuft.

Quantisierungs-Format (GPTQ) Ein verbreitetes Verfahren, um Modelle nachträglich zu quantisieren (zu komprimieren), ohne sie neu zu trainieren — beliebt, um große Modelle lokal lauffähig zu machen.

DPO (Direct Preference Optimization) Eine schlankere Alternative zu RLHF: Das Modell lernt direkt aus „Antwort A ist besser als B", ohne den komplizierten Belohnungs-Umweg.

KV-Cache (Key-Value-Cache) Ein Zwischenspeicher, der bereits berechnete Teile einer Antwort behält, damit das Modell beim Weiterschreiben nicht alles neu rechnen muss. Macht lange Antworten erst bezahlbar.

MMLU Ein bekannter Test mit Tausenden Fragen aus 57 Fachgebieten, mit dem man die Allgemeinbildung von Modellen vergleicht. Praktisch fürs Benchmark-Marketing, mit Vorsicht zu genießen.

Mechanistic Interpretability Der Versuch, ins Innere eines Modells zu schauen und zu verstehen, wie es zu seinen Antworten kommt — KI-Neurowissenschaft sozusagen. Noch ganz am Anfang.

EU AI Act Das KI-Gesetz der EU: Es teilt KI-Anwendungen in Risikoklassen ein und knüpft daran Pflichten. Die weltweit erste umfassende KI-Regulierung dieser Art.

Tiefsee (für Profis)

Hier wird's technisch. Ein Satz pro Begriff — wer tiefer will, findet im Quiz die Profi-Stufe.

Mixture of Experts (MoE) — Statt eines großen Netzes viele kleine „Experten", von denen pro Anfrage nur ein paar aktiv werden: mehr Wissen bei weniger Rechenaufwand.

Flash Attention — Ein Trick, der die Attention-Berechnung speicherschonender macht und so längere Kontexte und schnelleres Training ermöglicht.

Speculative Decoding — Ein kleines Modell rät die nächsten Token voraus, ein großes prüft sie nur noch — das beschleunigt die Textausgabe deutlich.

Sparse Attention — Das Modell schaut nicht mehr auf jedes Wort-Paar, sondern nur auf die relevanten — spart Rechenzeit bei langen Texten.

Model Merging / SLERP — Mehrere trainierte Modelle werden zu einem verschmolzen; SLERP ist die Methode, ihre Gewichte auf einer Kugeloberfläche sauber dazwischen zu interpolieren.

Continued Pre-Training — Ein fertiges Modell wird mit großen Mengen neuer Rohdaten weiter vortrainiert — anders als Fine-Tuning, das nur eine konkrete Aufgabe schärft.

Prompt Compression — Lange Prompts werden automatisch eingedampft, damit sie ins Kontextfenster passen und weniger Token kosten.

Superposition — Phänomen, dass ein einzelnes Neuron mehrere unabhängige Konzepte gleichzeitig kodiert — einer der Gründe, warum Modelle so schwer zu durchschauen sind.

Dense Passage Retrieval (DPR) — Suche über Embeddings (Bedeutung) statt über exakte Stichwörter — die „dichte" Variante der Trefferfindung in RAG.

Agentic Workflow — Ein Ablauf, in dem eine KI über mehrere Schritte plant, handelt und sich selbst korrigiert, statt nur einmal zu antworten.

GRPO vs. PPO — Zwei Verfahren, um Modelle per Belohnung zu optimieren; GRPO kommt ohne separates Wertmodell aus und ist dadurch sparsamer als das ältere PPO.

Long-Context-Modell — Ein Modell, dessen Kontextfenster Hunderttausende bis Millionen Token fasst — ganze Bücher auf einmal, mit allerlei technischen Tricks dahinter.

Fehlt ein Begriff? Vielleicht steckt er schon in einem Artikel oder im Quiz. Sonst: Wir bauen das Glossar weiter aus.