TLDR:

Vector veritabanı, verilerin yüksek boyutlu vector temsillerini (gömme) depolama ve sorgulama için optimize edilmiş bir veritabanıdır; milyonlarca ila milyarlarca vector arasında hızlı benzerlik aramayı mümkün kılar. Vector veritabanları modern yapay zeka uygulamaları, özellikle RAG sistemleri için temel altyapıdır.

Vector Veritabanları Geleneksel Veritabanlarından Nasıl Farklı

Geleneksel ilişkisel ve belge veritabanları tam eşleşme veya anahtar kelime benzerliğine göre sorgular. Vector veritabanları anlamsal benzerliğe göre sorgular—yüksek boyutlu uzayda gömme vektörleri bir sorgu vektörüne en yakın olan öğeleri bulur. Bu, gerçek metin eşleşmesi yerine anlama dayalı aramayı mümkün kılar ve geleneksel veritabanlarının verimli biçimde hizmet edemediği kullanım vakalarını destekler.

Temel Mimari

Vector veritabanları, ölçekte benzerlik aramayı hızlandırmak için yaklaşık en yakın komşu (ANN) algoritmaları—HNSW, IVF, ScaNN—kullanır. Tipik olarak metaveri üzerinde filtrelemeyi (örn. belirli bir kullanıcıdan benzer belgeleri al), hibrit aramayı (vector benzerliğini anahtar kelime eşleşmesiyle birleştirmek) ve çok kiracılı uygulamalar için ad alanı izolasyonunu destekler. İndeksleme stratejileri geri çağırma, gecikme, bellek kullanımı ve güncelleme hızı arasında değiş tokuş yapar.

Önde Gelen Sağlayıcılar ve Açık Kaynak Seçenekler

Büyük vector veritabanı ürünleri arasında Pinecone (yönetilen bulut), Weaviate (açık kaynak + yönetilen), Qdrant (açık kaynak + yönetilen), Milvus (açık kaynak) ve Chroma sayılabilir. Yerleşik veritabanları vector yetenekleri eklemiştir: PostgreSQL için pgvector, MongoDB Atlas Vector Search, Elasticsearch dense vector, Redis vector search. Doğru seçim ölçeğe, dağıtım modeline (bulut vs. on-prem) ve mevcut yığınla entegrasyona bağlıdır. Çoğu erken aşama uygulama için pgvector veya yönetilen bir hizmet yeterlidir.