“Uzmanlar Karışımı” (MoE) nedir?
Uzmanlar Karışımı (Mixture of Experts — MoE), modelin birçok uzmanlaşmış alt-ağdan (“uzmanlar”) artı her giriş token’ını hangi uzmanın işleyeceğine karar veren bir yönlendirme ağından oluştuğu sinir ağı mimarisidir. Çıkarım başına toplam parametrelerin yalnızca bir kısmı etkinleşir, benzer çıkarım maliyetinde çok daha büyük toplam model kapasitesine izin verir. MoE, Mixtral 8x7B, GPT-4 (söylentiye göre), DeepSeek-V3 ve birçok 2024-2025 öncü modelinin ardındaki mimarıdır.
MoE mekaniği
- Uzmanlar: MoE katmanı başına tipik olarak 8-128 ayrı ileri besleme alt-ağı.
- Yönlendirici (gating network): her token için uzmanları puanlayan ve en üst-K’ya (genelde 2) yönlendiren küçük sinir ağı.
- Seyrek etkinleştirme: token başına N uzmandan yalnızca K’sı hesaplar; toplam param yüksek, token başına compute sınırlı.
- Yük dengeleme: yardımcı kayıplar uzmanların eğitim sırasında kabaca eşit kullanılmasını sağlar.
MoE vs. yoğun modeller
- Yoğun (örn. Llama 3 70B): çıkarım başına her parametre etkin; daha yüksek compute maliyeti.
- MoE (örn. Mixtral 8x7B ~47B param ama yalnızca ~13B etkin): daha büyük toplam model, benzer çıkarım maliyeti; bellek-compute takas.
- Kalite: iyi ayarlanmış MoE, karşılaştırılabilir etkin-parametre sayısına sahip yoğun modelleri eşleştirir veya geçer.
MoE dağıtım dikkati
- Bellek ayak izi: token başına yalnızca birkaçı etkinleşse bile tüm uzmanlar bellekte olmalı; hosting maliyetini artırır.
- Yönlendirme kararsızlığı: erken eğitim, tüm token’ların tek uzmana gittiği dejenere yönlendirme üretebilir.
- Çıkarım verimi: yönlendirme değişkenliği nedeniyle yoğun modellerden daha zor verimli batch’lenir.
- Uyum dokümantasyonu: AI Act ve ISO/IEC 42001 dokümantasyonu, MoE topolojisi dahil mimari şeffaflık gerektirir.
Yapın: eğitim compute bütçesi kısıtlıyken ancak çıkarım bütçesi bellek maliyetini emebildiğinde MoE’yi düşünün; eşdeğer yoğun modellere karşı kıyaslayın.
Yapmayın: yüksek toplam parametreli MoE’nin yoğun modellerden “daha yetenekli” olduğunu varsaymayın — önemli olan etkin-parametre sayısı ve eğitim verisi kalitesidir.