Vector Database (Vektordatenbank)
Spezialisiertes Datenbanksystem für hochdimensionale Vektoren und Similarity Search.
Definition
Eine Vector Database ist ein spezialisiertes Datenbanksystem, das hochdimensionale Vektoren (typischerweise 300-1536 Dimensionen) effizient speichert, indexiert und durchsucht. Im Gegensatz zu traditionellen Datenbanken, die exakte Matches suchen, ermöglichen Vector Databases Similarity Search – das Finden von semantisch ähnlichen Inhalten basierend auf mathematischer Distanz im Vektorraum.
Warum das wichtig ist
Vector Databases sind die technologische Grundlage für: Semantic Search (Suche nach Bedeutung), Recommendation Engines (ähnliche Produkte/Artikel), RAG (Retrieval-Augmented Generation für LLMs), Duplicate Detection (inhaltlich ähnliche Dokumente), und Persona Clustering (Gruppierung nach Sprachmustern).
Vidasus-Kontext
Praxis-Beispiel
Ein E-Commerce-Unternehmen mit umfangreichem Produktkatalog setzte Vector Databases ein: Alle Beschreibungen → text-embedding-3 → Weaviate Vector DB → Automatische "Ähnliche Produkte"-Recommendations. Cross-Selling-Rate verbesserte sich merklich. System identifizierte auch viele nahezu-duplizierte Produkte.
Technische Details
Führende Systeme: Pinecone (Cloud-native, Production-Scale), Weaviate (Open-Source, Hybrid Search), Chroma (Lightweight, Developer-friendly). Distanz-Metriken: Cosine Similarity (häufigste), Euclidean Distance, Dot Product.
Die Säulen
- Embedding-Generierung – Text via ML-Modell in Vektor transformieren
- Indexierung – Vektoren in optimierten Index-Strukturen (HNSW, IVF)
- Similarity Search – Query zu Vektor → K nearest neighbors finden
- Distanz-Berechnung – Cosine, Euclidean, Dot Product