Text wird in eine Liste von Zahlen umgewandelt die semantische Bedeutung codiert — ähnliche Bedeutungen landen als Zahlen nah beieinander.
Ein Embedding ist eine numerische Repräsentation von Text in einem hochdimensionalen Raum (z.B. 1536 Dimensionen bei OpenAI text-embedding-3-small). Die entscheidende Eigenschaft: Semantisch ähnliche Texte haben ähnliche Vektoren — d.h. "Hund" und "Hund der bellt" sind sich numerisch ähnlicher als "Hund" und "Steuerbescheid". Vektorsuche (Similarity Search) findet die k ähnlichsten Einträge zu einer Suchanfrage. Bei UNI FORCE: ki_items hat 10.676 Artikel mit Embeddings in pgvector — die Suche auf ki-force.com nutzt Vektorsuche für semantisch relevante Ergebnisse statt reiner Keyword-Suche.
Suchanfrage "Steuern sparen mit Photovoltaik" findet per Vektorsuche auch Artikel mit "IAB für PV-Anlagen", "§ 7g EStG Solaranlage" — ohne diese Wörter zu enthalten.