“AI red-teaming” nedir?

AI red-teaming, dağıtım öncesi güvenlik açıkları, zararlı çıktılar, jailbreak’ler, prompt injection vektörleri, önyargılı davranış ve güvenlik başarısızlıklarını keşfetmek için AI sistemlerinin — tipik olarak LLM’ler ve multimodal modeller — yapılandırılmış düşmanca testidir. Uygulama, onlarca yıllık siber güvenlik red-teaming’ini AI’a özgü başarısızlık modlarına genişletir. AB AI Act Madde 55, sistemik riskli GPAI için red-teaming’i zorunlu kılar; NIST AI RMF (Risk Yönetim Çerçevesi) bunu temel uygulama olarak ele alır.

AI red team’leri neyi test eder?

  • Jailbreak’ler: güvenlik eğitimini atlatıp kısıtlı içerik üreten prompt’lar.
  • Prompt injection: kullanıcı girdisi veya alınan içerik yoluyla saldırılar.
  • Halüsinasyon örüntüleri: modelin emin bir şekilde uydurduğu alanlar ve sorgu türleri.
  • Önyargı ve zararlı çıktılar: kalıplaştırma, ayrımcılık, zararlı üretimler.
  • Gizlilik sızıntısı: eğitim verisi ezberlemesi, kişisel veri geri kusması.
  • Araç kötüye kullanımı: modeller araç kullanabildiğinde, yetkisiz veya tehlikeli araç dizilerinin testi.
  • Multimodal saldırılar: model davranışını değiştiren düşmanca görseller, ses veya video.

Red-team kompozisyonu

  • İç red team’ler: düşmanca teste odaklanan özel çalışanlar.
  • Dış red team’ler: alan uzmanlığına sahip üçüncü taraflar (güvenlik firmaları, akademik araştırmacılar).
  • Crowdsourced: ödül programları (OpenAI Red Teaming Network, Anthropic Bug Bounty).
  • Konu uzmanları: yüksek riskli dikeyler için (biyogüvenlik, kimya, çocuk güvenliği) alan uzmanları şarttır.

Türk şirketleri için

Türk AI ürünlerinin AB pazarına çıkışında GPAI eşiğine ulaşan modeller için red-teaming AI Act Madde 55 kapsamında zorunlu. KVKK perspektifinden veri sızıntısı testi (training data memorisation) tüm LLM-destekli ürünler için iyi pratiktir.

Yapın: her büyük sürümden önce AI red-teaming yürütün; yüksek-bahis dağıtımlar için dış red-teamer’larla çalışın; artık riskleri belgeleyin.
Yapmayın: red-teaming’i tek seferlik lansman-öncesi QA olarak görmeyin — saldırganlar evrilir ve model davranışı kayar; süregelen test gereklidir.