Vector Veritabanı

TLDR:

Vector veritabanı, verilerin yüksek boyutlu vector temsillerini (gömme) depolama ve sorgulama için optimize edilmiş bir veritabanıdır; milyonlarca ila milyarlarca vector arasında hızlı benzerlik aramayı mümkün kılar. Vector veritabanları modern yapay zeka uygulamaları, özellikle RAG sistemleri için temel altyapıdır.

Vector Veritabanları Geleneksel Veritabanlarından Nasıl Farklı

Geleneksel ilişkisel ve belge veritabanları tam eşleşme veya anahtar kelime benzerliğine göre sorgular. Vector veritabanları anlamsal benzerliğe göre sorgular—yüksek boyutlu uzayda gömme vektörleri bir sorgu vektörüne en yakın olan öğeleri bulur. Bu, gerçek metin eşleşmesi yerine anlama dayalı aramayı mümkün kılar ve geleneksel veritabanlarının verimli biçimde hizmet edemediği kullanım vakalarını destekler.

Temel Mimari

Vector veritabanları, ölçekte benzerlik aramayı hızlandırmak için yaklaşık en yakın komşu (ANN) algoritmaları—HNSW, IVF, ScaNN—kullanır. Tipik olarak metaveri üzerinde filtrelemeyi (örn. belirli bir kullanıcıdan benzer belgeleri al), hibrit aramayı (vector benzerliğini anahtar kelime eşleşmesiyle birleştirmek) ve çok kiracılı uygulamalar için ad alanı izolasyonunu destekler. İndeksleme stratejileri geri çağırma, gecikme, bellek kullanımı ve güncelleme hızı arasında değiş tokuş yapar.

Önde Gelen Sağlayıcılar ve Açık Kaynak Seçenekler

Büyük vector veritabanı ürünleri arasında Pinecone (yönetilen bulut), Weaviate (açık kaynak + yönetilen), Qdrant (açık kaynak + yönetilen), Milvus (açık kaynak) ve Chroma sayılabilir. Yerleşik veritabanları vector yetenekleri eklemiştir: PostgreSQL için pgvector, MongoDB Atlas Vector Search, Elasticsearch dense vector, Redis vector search. Doğru seçim ölçeğe, dağıtım modeline (bulut vs. on-prem) ve mevcut yığınla entegrasyona bağlıdır. Çoğu erken aşama uygulama için pgvector veya yönetilen bir hizmet yeterlidir.

Tedarik notu: yönetilen vektör veritabanı servisleri yurt dışında barındırılıyorsa bu bir yurt dışı aktarımdır — 2024 KVKK standart sözleşme rejimi ve Kurul bildirimi gündeme gelir; güvenlik anketleri artık vektör katmanını adıyla soruyor ve RAG ürünleri bu katmanı kayıt sistemi gibi belgelemelidir.

TLDR:

Vector Veritabanları Geleneksel Veritabanlarından Nasıl Farklı

Temel Mimari

Önde Gelen Sağlayıcılar ve Açık Kaynak Seçenekler

İlgili terimler