Vektorstore: So bekommt deine KI ein Gedächtnis

Stell dir vor, du willst, dass eine KI deine 80-seitige Vereinssatzung kennt. Oder deine Rezeptsammlung. Oder die Kalorientabellen, mit denen du deinen Ernährungs-Assistenten fütterst.

Die naive Lösung: alles in den Chat kopieren. Klappt — bis das Dokument zu groß wird, das Modell den Anfang vergisst und jede Anfrage unnötig teuer wird.

Die elegante Lösung heißt Vektorstore. Und die ist einfacher zu verstehen, als der Name vermuten lässt.

Das Grundproblem: KI hat kein Gedächtnis

Ein Sprachmodell weiß nichts über dich. Jeder neue Chat fängt bei null an. Du kannst Kontext reinkopieren, klar — aber der Platz ist begrenzt (das sogenannte Kontextfenster), und ein ganzes Handbuch bei jeder Frage mitzuschicken ist, als würdest du jedes Mal die komplette Bibliothek mitschleppen, nur um eine Seite nachzuschlagen.

Es muss also einen Weg geben, der KI gezielt nur das Richtige zuzustecken. Genau das macht ein Vektorstore.

Die Idee: Bedeutung wird zu Zahlen

Ein Computer versteht keine Wörter, nur Zahlen. Ein Vektorstore übersetzt deshalb jeden Text in eine lange Zahlenreihe, ein sogenanntes Embedding (eine Einbettung). Der Clou: Diese Zahlen fangen die Bedeutung ein, nicht die Buchstaben.

Texte mit ähnlicher Bedeutung bekommen ähnliche Zahlen und landen nah beieinander. „Hund" und „Vierbeiner" liegen dicht zusammen. „Hund" und „Steuererklärung" weit auseinander.

Stell es dir wie eine Bibliothek vor, in der die Bücher nicht alphabetisch stehen, sondern nach Thema gruppiert — alles übers Kochen beisammen, egal wie die Titel heißen. Du suchst nicht nach einem exakten Stichwort, sondern nach Sinn.

Ein Rechenbeispiel zum Anfassen

Jetzt wird's kurz etwas technischer — aber keine Sorge: Am Ende steht nichts als Mal und Plus, das jeder Taschenrechner schafft. Wer mag, überspringt den Abschnitt; das Prinzip bleibt auch ohne die Zahlen verständlich.

Nehmen wir fünf Bedeutungs-Dimensionen — fünf Themen, an denen wir messen, worum es in einem Text geht: Kochen, Ernährung, Fitness, Ausrüstung, Geld. Jeder Text bekommt pro Thema einen Wert, je stärker er dazu passt. (Echte Embedding-Modelle finden diese Werte selbst — wir setzen sie hier von Hand.)

Zwei Dokumente:

	Kochen	Ernährung	Fitness	Ausrüstung	Geld
Dok A — kalorienarmes Nudelrezept	3	4	0	0	1
Dok B — Krafttraining für Einsteiger	0	1	4	2	1

Diese fünf Zahlen sind der Vektor des Dokuments. Damit wir nur die Richtung vergleichen (und nicht, ob ein Text einfach mehr Wörter hat), bringen wir jeden Vektor auf Länge 1 — das nennt man normieren. Man teilt dazu durch die eigene Länge:

Länge von A = √(3² + 4² + 1²) = √26 ≈ 5,10 → A ≈ (0,59; 0,78; 0; 0; 0,20)
Länge von B = √(1² + 4² + 2² + 1²) = √22 ≈ 4,69 → B ≈ (0; 0,21; 0,85; 0,43; 0,21)

Jetzt die Suche. Auch deine Anfrage wird zu so einem (normierten) Vektor — je nachdem, welche Themen sie betont. Und weil alle Vektoren Länge 1 haben, ist das Kosinus-Ähnlichkeitsmaß nur noch das Skalarprodukt: Werte paarweise multiplizieren, alles aufaddieren. Ein Ergebnis nahe 1 heißt „zeigt in dieselbe Richtung", also sehr ähnlich; nahe 0 heißt „hat wenig miteinander zu tun".

Warum überhaupt der Kosinus? Weil er einfach zu rechnen ist und anschaulich bleibt: Ein großer Kosinus bedeutet einen kleinen Winkel zwischen den Vektoren — sie zeigen fast in dieselbe Richtung. Es gibt auch andere Ähnlichkeitsmaße, aber der Kosinus ist der Klassiker.

Einmal vorgerechnet für die Anfrage „kalorienarm kochen" = (1; 1; 0; 0; 0), normiert (0,71; 0,71; 0; 0; 0):

mit A: 0,59 · 0,71 + 0,78 · 0,71 = 0,97
mit B: 0,21 · 0,71 = 0,15

Dok A gewinnt klar. Und so sieht es für vier Anfragen aus:

Suchanfrage (Gewichte)	· A	· B	Treffer
„kalorienarm kochen" (1,1,0,0,0)	0,97	0,15	Dok A
„wie trainiere ich?" (0,0,1,0,0)	0,00	0,85	Dok B
„gesund essen, wenig Geld" (0,1,0,0,1)	0,69	0,30	Dok A
„Ernährung fürs Training" (0,1,1,0,0)	0,55	0,75	Dok B

Die letzte Zeile ist die interessante: „Ernährung" allein würde für Dok A sprechen — aber „Training" zieht stärker zu Dok B, und unterm Strich gewinnt B. Der Store matcht eben keine Stichwörter, er wägt die ganze Bedeutung gegeneinander ab.

Und das ist der ganze Zauber: nur Mal und Plus. Was wir hier für 2 Dokumente und 5 Dimensionen mit dem Taschenrechner machen, erledigt ein Server für Millionen Dokumente und Tausende Dimensionen — in Millisekunden. Echte Embedding-Modelle arbeiten meist mit 500 bis 4000 Dimensionen statt fünf. Das Prinzip bleibt exakt dasselbe.

Wie das zusammenspielt: RAG

Der Fachbegriff dafür ist RAG — Retrieval-Augmented Generation. Klingt sperrig, heißt aber nur: Die KI holt sich vor dem Antworten passende Häppchen aus deiner Wissensdatenbank.

In vier Schritten:

Zerlegen: Dein Dokument wird in kleine Häppchen geschnitten („Chunks") — etwa absatzweise.
Einbetten: Jedes Häppchen bekommt seinen Zahlen-Fingerabdruck und wandert in den Vektorstore.
Suchen: Stellst du eine Frage, wird auch die zu Zahlen — und der Store liefert die ähnlichsten Häppchen zurück.
Antworten: Nur diese paar Häppchen plus deine Frage gehen ans Modell.

In der Praxis holt man sich übrigens selten nur den einen besten Treffer, sondern — je nach Anwendungsfall — die besten drei bis fünf. Gerade wenn Tausende oder Millionen Dokumente im Store liegen, sorgt das dafür, dass nichts Wichtiges durchrutscht. Am Prinzip ändert das nichts.

Statt das ganze Buch mitzuschicken, geht nur die relevante Seite raus. Das spart Geld und macht die Antwort konkreter — sie stützt sich auf deine Quellen statt auf das, was das Modell irgendwann mal irgendwo gelesen hat.

Netter Nebeneffekt: weniger Halluzinieren. Wenn die KI die richtige Textstelle direkt vor der Nase hat, erfindet sie seltener etwas dazu.

Was du konkret brauchst

Die gute Nachricht: Den Vektorstore baust du nicht selbst zusammen. Fertige Werkzeuge erledigen das Zerlegen, Einbetten und Suchen für dich:

OpenWebUI hat eine Wissensdatenbank eingebaut — PDF reinziehen, fertig.
Flowise lässt dich ganze KI-Abläufe zusammenklicken, ohne eine Zeile Code.
Qdrant ist der Vektorstore selbst — läuft sauber in Docker, wenn du es lieber selbst in der Hand hast.

Und das ist der eigentlich schöne Teil: Das alles läuft bei dir. Deine Dokumente verlassen den eigenen Rechner nicht — keine Cloud, kein fremder Anbieter, der mitliest. Für alles, was vertraulich ist, ein echtes Argument.

Kurze Geschichtsstunde: alles schon mal dagewesen

Klingt nach brandneuer KI-Magie? Ist es nicht. Texte als Vektoren in einen Raum zu sortieren, ist älter als die meisten Leser dieses Blogs — die Idee geht auf das Vector Space Model aus den 1960er- und 70er-Jahren zurück. Schon große Such- und Bibliothekssysteme arbeiteten so, und um die Jahrtausendwende sortierten Web-Suchmaschinen ihre Treffer nach genau diesem Prinzip.

Neu ist also nicht der Vektorstore. Neu ist, wie die Zahlen entstehen. Früher zählte man schlicht Wörter und gewichtete sie mit Formeln wie TF-IDF (in der SEO-Welt auch als WDF*IDF bekannt): je seltener ein Wort insgesamt, desto wichtiger für dieses eine Dokument. Reine Buchhaltung über Wörter — von Bedeutung keine Spur.

Heute übernimmt ein Sprachmodell das Einbetten. Es hat gelernt, dass „Hund" und „Vierbeiner" zusammengehören, ohne dass je dasselbe Wort fällt. Genau das war früher unmöglich — und genau deshalb erlebt die alte Idee gerade ihren zweiten Frühling.

Wann sich das lohnt — und wann nicht

Ehrlich: Für eine schnelle Frage an ChatGPT brauchst du keinen Vektorstore. Der lohnt sich, wenn du immer wieder gegen dieselbe Wissensbasis arbeitest — eigene Notizen, Handbücher, eine Dokumentation, deine Rezeptsammlung. Alles, was zu groß ist, um es jedes Mal neu zu erklären.

Für den einmaligen Gebrauch ist es Overkill. Für ein Gedächtnis, das mit dir wächst, ist es genau richtig.

So fängst du an

Der einfachste Einstieg ist OpenWebUI: Wissensdatenbank anlegen, Dokumente reinziehen, einem eigenen Modell zuweisen — den Rest macht das Tool. Wer tiefer einsteigen will, startet Qdrant mit einem einzigen Docker-Befehl und probiert aus, wie sich das Suchen nach Bedeutung anfühlt.

Das hier ist der Auftakt zu einer kleinen Serie übers Bauen eigener KI-Systeme. Als Nächstes schauen wir uns Qdrant konkret an — und wie daraus ein Chatbot wird, der deine Inhalte wirklich kennt.