“AI red-teaming” nedir?
AI red-teaming, dağıtım öncesi güvenlik açıkları, zararlı çıktılar, jailbreak’ler, prompt injection vektörleri, önyargılı davranış ve güvenlik başarısızlıklarını keşfetmek için AI sistemlerinin — tipik olarak LLM’ler ve multimodal modeller — yapılandırılmış düşmanca testidir. Uygulama, onlarca yıllık siber güvenlik red-teaming’ini AI’a özgü başarısızlık modlarına genişletir. AB AI Act Madde 55, sistemik riskli GPAI için red-teaming’i zorunlu kılar; NIST AI RMF (Risk Yönetim Çerçevesi) bunu temel uygulama olarak ele alır.
AI red team’leri neyi test eder?
- Jailbreak’ler: güvenlik eğitimini atlatıp kısıtlı içerik üreten prompt’lar.
- Prompt injection: kullanıcı girdisi veya alınan içerik yoluyla saldırılar.
- Halüsinasyon örüntüleri: modelin emin bir şekilde uydurduğu alanlar ve sorgu türleri.
- Önyargı ve zararlı çıktılar: kalıplaştırma, ayrımcılık, zararlı üretimler.
- Gizlilik sızıntısı: eğitim verisi ezberlemesi, kişisel veri geri kusması.
- Araç kötüye kullanımı: modeller araç kullanabildiğinde, yetkisiz veya tehlikeli araç dizilerinin testi.
- Multimodal saldırılar: model davranışını değiştiren düşmanca görseller, ses veya video.
Red-team kompozisyonu
- İç red team’ler: düşmanca teste odaklanan özel çalışanlar.
- Dış red team’ler: alan uzmanlığına sahip üçüncü taraflar (güvenlik firmaları, akademik araştırmacılar).
- Crowdsourced: ödül programları (OpenAI Red Teaming Network, Anthropic Bug Bounty).
- Konu uzmanları: yüksek riskli dikeyler için (biyogüvenlik, kimya, çocuk güvenliği) alan uzmanları şarttır.
Türk şirketleri için
Türk AI ürünlerinin AB pazarına çıkışında GPAI eşiğine ulaşan modeller için red-teaming AI Act Madde 55 kapsamında zorunlu. KVKK perspektifinden veri sızıntısı testi (training data memorisation) tüm LLM-destekli ürünler için iyi pratiktir.
Yapın: her büyük sürümden önce AI red-teaming yürütün; yüksek-bahis dağıtımlar için dış red-teamer’larla çalışın; artık riskleri belgeleyin.
Yapmayın: red-teaming’i tek seferlik lansman-öncesi QA olarak görmeyin — saldırganlar evrilir ve model davranışı kayar; süregelen test gereklidir.