TLDR:
Arama Destekli Üretim (RAG), LLM’leri bilgi alma sistemleriyle—tipik olarak vector veritabanlarıyla—birleştirerek belirli belgelere veya veri kaynaklarına dayalı çıktılar üreten ve halüsinasyonları azaltan ve özel veya güncel bilgilerin kullanılmasını sağlayan bir tekniktir.
RAG Nasıl Çalışır
Bir RAG hattı üç aşamaya sahiptir. Önce, kaynak belgeler parçalara ayrılır, vector temsillerine gömülür ve bir vector veritabanında saklanır. İkinci olarak, sorgu zamanında kullanıcının sorusu da gömülür ve veritabanından en anlamsal olarak benzer parçaları almak için kullanılır. Üçüncü olarak, alınan parçalar LLM’nin prompt’una bağlam olarak eklenir ve model o parçalara dayalı bir cevap üretir. Modern RAG sistemleri karmaşık sorular için yeniden sıralama, sorgu yeniden yazma ve çok adımlı arama ekler.
RAG Neden Saf LLM’lerden Daha İyi
Saf LLM’lerin RAG’in ele aldığı üç sınırlaması vardır: bilgi kesimleri (LLM’ler yalnızca eğitim verilerinde olanı bilir), özel verilere erişememe ve halüsinasyonlar (kendinden emin görünen ancak yanlış çıktılar). RAG çıktıları erişilebilir belgelere bağlar, sistemi yeniden eğitim olmadan güncellenebilir hale getirir, eğitim sırasında veriyi açığa çıkarmadan özel veri erişimini sağlar ve doğrulama için atıf izleri sunar.
Kurumsal RAG Kalıpları
Yaygın kurumsal RAG uygulamaları şunlardır: müşteriye dönük bilgi tabanları (Intercom Fin, Zendesk AI), iç bilgi asistanları (Glean, Notion AI), hukuki araştırma asistanları (Harvey, Hebbia) ve belge Soru-Cevap ürünleri. Üretim RAG inşası dikkatli parçalama stratejisi, gömme modeli seçimi, vector veritabanı seçimi (Pinecone, Weaviate, Qdrant, pgvector) ve arama kalitesini ve cevap sadakatini ölçmek için değerlendirme altyapısı gerektirir.