“Multimodal AI” nedir?
Multimodal AI (çok modlu yapay zeka), tek bir model mimarisi içinde birden fazla giriş/çıkış modalitesinde — metin, görsel, ses, video, yapılandırılmış veri — işleyen ve üreten AI sistemlerini tarif eder. GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 ve Llama 3.2 Vision, görsel ve metin girdilerini kabul eden, metin üreten ve giderek ses konuşan bayrak gemisi multimodal sistemlerdir. Multimodal yetenek, daha önce birden fazla uzmanlaşmış modeli birleştirmeyi gerektiren uygulamaları mümkün kılar.
Yaygın multimodal yetenekler
- Görsel + metin: görselleri tanımlama, belge okuma, ekran görüntüsü analizi, OCR.
- Ses + metin: transkripsiyon, gerçek zamanlı sesli asistanlar, ses analizi.
- Video + metin: video içeriğini özetleme, olayları çıkarma, kareler arasında nesneleri tanımlama.
- Üretim: metinden görsel (DALL-E, Stable Diffusion), metinden video (Sora, Runway), metinden konuşmaya.
Hukuki ve uyum dikkati
- Biyometrik veri: multimodal girdilerdeki yüz, ses ve yürüyüş KVKK ve GDPR Madde 9 uyarınca özel nitelikli kişisel veri oluşturabilir.
- AB AI Act: duygu-tanıma sistemleri ve belirli biyometrik kategorilendirmeler ek kısıtlamalarla karşılaşır.
- Telif: telifli görseller, ses ve video üzerinde eğitim, salt metinden daha fazla dava maruziyeti yaratır.
- Modaliteler arası enjeksiyon: görseller ve sesler salt metin filtrelerine görünmez düşmanca talimatlar taşıyabilir.
Türk startup’larında
Türk multimodal AI uygulamaları (sağlık görüntüleme, belge işleme, perakende katalog) için KVKK’nın biyometrik veri kategorisi (Madde 6) özel rıza yapısı gerektirir. Multimodal vendor seçiminde verinin Türkiye’de işlenmesi veya AB adequacy korumalı bir bölgede tutulması tipik gereksinimdir.
Yapın: multimodal girdileri hassasiyete göre sınıflandırın (özellikle biyometrik); KVKK / GDPR için veri akışlarını belgeleyin.
Yapmayın: görsel/ses modellerinin metinle aynı yönetişimden muaf olduğunu varsaymayın — kabul ettikleri girdiler genelde daha hassastır.