TLDR:
Difüzyon modelleri, kademeli bir gürültü ekleme sürecini tersine çevirmeyi öğrenerek veri (tipik olarak görüntüler, ancak giderek artan biçimde video ve ses) üreten üretken AI modelleri sınıfıdır. Stable Diffusion, DALL-E 3, Midjourney ve Sora ile Veo gibi video üretim sistemleri dahil büyük görüntü üretim sistemlerinin temelini oluştururlar ve görsel içerik için baskın üretken mimari haline gelirler.
Difüzyon Modelleri Nasıl Çalışır
Eğitim, gerçek görüntülere kademeli olarak gürültü ekleyerek saf gürültü haline gelmelerine kadar ilerler, ardından bir sinir ağını bu süreci tersine çevirmek için eğitir—her adımda eklenen gürültüyü tahmin eder. Çıkarım zamanında, model rastgele gürültüden başlar ve tutarlı bir görüntüye doğru yinelemeli olarak gürültüyü temizler, isteğe bağlı olarak bir metin kodlayıcı ile çapraz dikkat aracılığıyla metin prompt’larıyla yönlendirilir. Modern difüzyon modelleri verimlilik için latent uzay kullanır (ham pikseller yerine sıkıştırılmış temsillerle çalışır), bu nedenle Stable Diffusion gibi “latent difüzyon modelleri” (LDM’ler) adı verilir.
Uygulamalar ve Yetenekler
Difüzyon modelleri şunlarda mükemmeldir: metin-görüntü üretimi, görüntü-görüntü dönüşümü (inpainting, outpainting, stil transferi), süper çözünürlük ve restorasyon, video üretimi (difüzyon yaklaşımının zamansal dizilere genişletilmesi), ses üretimi (Stable Audio, MusicGen) ve 3D model üretimi. Yaratıcı endüstrileri—stok fotoğrafçılık, illüstrasyon, video prodüksiyon—dönüştürdü ve yaratıcı yazarlık, eğitim verisi lisanslama ve benzerlik hakları hakkında önemli sorular doğurdu.
Hukuki ve Etik Sorunlar
Difüzyon modelleri önemli hukuki zorluklarla karşılaşır: eğitim verisi telif hakkı (Getty Images v. Stability AI, sanatçı toplu davaları), derin sahteler ve rıza dışı görüntülerin üretimi, model eğitim örneklerine yakından benzeyen çıktılar ürettiğinde ihlal ve ünlülerin veya marka ilişkili içeriğin görüntülerini üretirken marka/benzerlik kaygıları. AI üretimli içeriği izlemek için kaynak standartları (C2PA içerik kimlik bilgileri) ortaya çıkıyor.