RLHF — Modern LLM'ler İnsan Tercihleriyle Nasıl Hizalanır

TLDR:

İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme (RLHF), LLM’leri ön eğitimden sonra insan tercihleriyle hizalamak için kullanılan tekniktir. RLHF, GPT-3’ü ChatGPT’ye dönüştürdü ve temel bir hizalama tekniği olarak kalmaya devam ediyor; ancak yeni yaklaşımlar (DPO, RLAIF, Anayasal AI) giderek artan biçimde klasik RLHF’yi yerinden ediyor.

RLHF Hattı

Klasik RLHF üç aşamaya sahiptir. İlk olarak, önceden eğitilmiş bir LLM, istenen davranışın gösterimleriyle ince ayar yapılır (denetimli ince ayar). İkinci olarak, insan açıklayıcılar aynı prompt için birden çok model çıktısını kaliteye göre sıralar ve bu sıralamalar insan tercihlerini tahmin eden ayrı bir “ödül modeli” eğitir. Üçüncü olarak, LLM pekiştirmeli öğrenme—tipik olarak PPO (Proximal Policy Optimization)—kullanılarak daha fazla eğitilir; ödül modeli ödül sinyali sağlar ve insanların daha iyi olarak değerlendirdiği çıktılar üretir.

RLHF Neden Önemli

Ham web metni üzerinde eğitilmiş ön eğitimli LLM’ler kullanıcıların istediğiyle hizalı değildir—uzun, konu dışı, zararlı veya yardımsız yanıtlar üretebilirler. RLHF modellere talimatları takip etmeyi, yararlı ve zararsız olmayı, zararlı talepleri reddetmeyi ve tercih edilen stillerde çıktı üretmeyi öğretir. Hizalama eğitimi olmadan modern temel modellerin dramatik yetenekleri yararlı ürünlere dönüşmez.

Sınırlamalar ve Alternatifler

RLHF’nin bilinen sınırlamaları vardır: kapsamlı insan etiketleme gerektirir, yağcılığı veya yüzeysel hoş davranışı teşvik edebilir ve yeni senaryolara uzanmayabilir. Yeni yöntemler şunlardır: Doğrudan Tercih Optimizasyonu (DPO, PPO’dan daha basit ve daha kararlı), RLAIF (etiketlemeyi ölçeklendirmek için AI eleştirmenleri kullanan Yapay Zeka Geri Bildirimiyle Pekiştirmeli Öğrenme) ve Anayasal AI (öğrenilmiş tercihler yerine açık ilkeler kullanma). Çoğu modern sınır model birden çok hizalama tekniğini birleştirir.