Transformer Mimarisi — Modern Yapay Zekanın Temeli

TLDR:

Transformer, neredeyse tüm modern LLM’lerin (GPT, Claude, Gemini, Llama), görüntü üretim modellerinin, kod modellerinin ve diğer temel modellerin altta yatan sinir ağı mimarisidir. 2017’de Google araştırmacıları tarafından “Attention Is All You Need” makalesinde tanıtılan Transformer’ın öz-dikkat (self-attention) mekanizması, bugünün üretken yapay zeka devrimini üreten ölçeklendirmeyi mümkün kıldı.

Dikkat (Attention) Mekanizması

Transformer’lar dizileri (metin, görüntü, ses) “dikkat” (attention) hesaplayarak işler—girdideki her token ile diğer her token arasındaki ağırlıklı ilişki. Öz-dikkat (self-attention), modelin girdinin hangi bölümlerinin her çıktı token’ı için ilgili olduğunu dinamik olarak belirlemesini sağlar. Sıralı verileri katı bir şekilde soldan sağa işleyen tekrarlayan sinir ağlarından (RNN/LSTM) farklı olarak, Transformer’lar tüm pozisyonları paralel olarak işler, GPU’larda eğitim verimliliğini önemli ölçüde artırır ve modern modellerin büyük ölçeğini mümkün kılar.

Transformer’lar Neden Kazandı

Transformer’ları baskın mimari yapan çeşitli faktörler vardır: paralelleştirilebilir eğitim (tekrarlayan bağımlılıklar yok), güçlü ölçeklendirme özellikleri (performans daha fazla parametre, daha fazla veri, daha fazla hesaplama ile güvenilir şekilde iyileşir), esneklik (aynı mimari küçük değişikliklerle metin, görüntü, ses ve kodu ele alır) ve ölçekte yeteneklerin ortaya çıkması (bağlam içi öğrenme, düşünce zinciri muhakemesi, talimat takip).

Varyantlar ve Modern Gelişmeler

Orijinal kodlayıcı-kod çözücü Transformer birçok varyant doğurmuştur: yalnızca kodlayıcı modelleri (BERT, sınıflandırma ve embedding için kullanılır), yalnızca kod çözücü modelleri (GPT ailesi, üretim için kullanılır), kodlayıcı-kod çözücü (T5, çeviri ve özetleme için kullanılır), görüntü Transformer’ları (ViT, görüntü anlama için) ve her ileri geçişte yalnızca parametrelerin bir alt kümesini etkinleştiren Uzman Karışımı (MoE) varyantları (Mixtral, GPT-4 mimarisi). Son gelişmeler arasında durum-uzay modelleri (Mamba) ve çok uzun bağlamlarda Transformer sınırlamalarını aşmayı amaçlayan hibrit mimariler yer alır.