Tüm dünyayı etkisi altına alan yapay zeka modelleri, güvenlik açıklarıyla da gündeme geliyor. Üstelik bu kez, durum sandığınızdan ciddi.
Palo Alto Networks’ün güvenlik birimi Unit 42 tarafından yapılan yeni bir araştırma, yapay zeka dil modellerinin (LLM) güvenlik önlemlerini aşmak için kullanılan akıl almaz bir tekniği ortaya çıkardı. ‘Aldatıcı Sevinç’ (Deceptive Delight) adı verilen bu yöntem, yapay zekaların zararlı içerik üretimi yapması için sadece üç adımlık bir etkileşime ihtiyaç duyuyor.
Yapay zeka modelleri güvenli mi?
Araştırmacılar, bu tekniğin tehlikeli istekleri zararsız görünen sorguların içine gizleyerek çalıştığını belirtiyor. Yapılan testlerde, sekiz farklı model üzerinde 8 bin deneme gerçekleştirildi ve vakaların yüzde 65’inde zararlı yanıtlar elde edilebildi. Bu oran, geleneksel yöntemlerle yapılan doğrudan zararlı isteklerde sadece yüzde 6 seviyelerinde geziyordu.
Tekniğin çalışma prensibi şu şekilde: Zararlı içerik gündelik ve masum konularla harmanlanıyor ve bu sayede yapay zekaların güvenlik mekanizmaları aşılabiliyor. Örneğin, sevdiklerine kavuşma ve çocuk doğumu gibi olumlu olaylarla yapay zeka tabir-i caizse yumuşatılıyor ve daha sonrasında bu mesajlar tehlikeli içerikleri birleştirerek modelin her iki konuya da yanıt vermesini sağlıyor.