TLDR:
Yapay zeka güvenliği, AI sistemlerinin zarara neden olmasını—kötüye kullanım, kaza veya hedeflerin yanlış hizalanması yoluyla—önlemeyi amaçlayan araştırma, mühendislik ve politika alanıdır. Yakın vadeli riskleri (önyargı, gizlilik ihlalleri, yanlış bilgi) ve son derece yetenekli genel amaçlı AI’dan gelen daha uzun vadeli sınır risklerini kapsar.
AI Güvenliğinde Anahtar Konular
Büyük AI güvenlik konuları şunlardır: hizalama (AI’nın amaçlanan hedeflere yönelmesini sağlama), yorumlanabilirlik (AI’nın neden belirli çıktılar ürettiğini anlama), sağlamlık (zıt manipülasyonu ve dağıtım kaymalarını önleme), değerlendirme (AI yeteneklerini ve risklerini sistematik olarak kıyaslama), izleme (dağıtımda beklenmeyen davranışları algılama) ve güvenlik (AI yeteneklerinin silahlandırılmasını önleme). Sınır güvenliği özellikle önemli zararlı eylemleri otonom olarak gerçekleştirebilecek kadar yetenekli modellerden kaynaklanan riskleri ele alır.
Sektör Pratiği
Önde gelen yapay zeka laboratuvarları (Anthropic, OpenAI, Google DeepMind) model yetenekleri için güvenlik eşikleri, zorunlu dağıtım öncesi değerlendirmeler ve belirli riskler ortaya çıkarsa dağıtımları geciktirme veya değiştirme taahhütlerini tanımlayan “Sorumlu Ölçeklendirme Politikaları” veya “Sınır Güvenlik Çerçeveleri” yayınlar. Standart uygulamalar arasında red-teaming, model kartları (model yetenekleri ve sınırlamalarının belgelenmesi), sorumlu açıklama programları ve belirli zarar kategorilerine karşı yetenek değerlendirmeleri (bio/kimyasal/nükleer/siber riskler) yer alır.
Düzenleyici ve Yönetişim Manzarası
AB AI Act, hesaplama eşiklerinin üzerindeki genel amaçlı AI modelleri için açık güvenlik yükümlülükleri yaratır, “sistemik risk” modeller için ek gereksinimlerle. Birleşik Krallık ve ABD bağımsız model değerlendirmeleri yapan AI Güvenlik Enstitüleri kurdu. ISO/IEC 42001 (AI yönetim sistemleri) ve NIST AI Risk Yönetim Çerçevesi kurumsal AI güvenlik uygulamaları için standartlar sağlar. Yapay zeka dağıtan kuruluşlar için güvenlik yükümlülükleri giderek artan biçimde tedarikçi sözleşmeleri aracılığıyla yayılır.