Palo Alto Networks’ün güvenlik birimi Unit 42 tarafından yapılan yeni bir araştırma, yapay zeka dil modellerinin (LLM) güvenlik önlemlerini aşmak için kullanılan akıl almaz bir tekniği ortaya çıkardı. ‘Aldatıcı Sevinç’ (Deceptive Delight) adı verilen bu yöntem, yapay zekaların zararlı içerik üretimi yapması için sadece üç adımlık bir etkileşime ihtiyaç duyuyor.
Yapay zeka modelleri güvenli mi?
Araştırmacılar, bu tekniğin tehlikeli istekleri zararsız görünen sorguların içine gizleyerek çalıştığını belirtiyor. Yapılan testlerde, sekiz farklı model üzerinde 8 bin deneme gerçekleştirildi ve vakaların yüzde 65’inde zararlı yanıtlar elde edilebildi. Bu oran, geleneksel yöntemlerle yapılan doğrudan zararlı isteklerde sadece yüzde 6 seviyelerinde geziyordu.
Tekniğin çalışma prensibi şu şekilde: Zararlı içerik gündelik ve masum konularla harmanlanıyor ve bu sayede yapay zekaların güvenlik mekanizmaları aşılabiliyor. Örneğin, sevdiklerine kavuşma ve çocuk doğumu gibi olumlu olaylarla yapay zeka tabir-i caizse yumuşatılıyor ve daha sonrasında bu mesajlar tehlikeli içerikleri birleştirerek modelin her iki konuya da yanıt vermesini sağlıyor.
Bu keşif, yapay zeka güvenliği konusundaki endişeleri artırırken sektörde yeni önlemlerin alınması gerektiğini de gözler önüne seriyor. Özellikle bazı modellerde yüzde 80’in üzerinde başarı oranına ulaşan bu teknik, yapay zeka sistemlerinin güvenlik açıklarına karşı ne kadar savunmasız olabileceğini gösteriyor.
Daha önceki haberlerimizden de anımsayacağınız üzere, yapay zeka modellerini zararlı içerik üretmeye yönlendirmek için dünyada az konuşulan dillerin kullanılması gibi bir yöntem geliştirilmişti. Henüz o soruna çözüm bulunamamışken, şimdi de ‘Tatlı dil yılanı deliğinden çıkarır’ metodu ile karşı karşıyayız.
Siz bu konu da ne düşünüyorsunuz? Görüşlerinizi yorumlara bekliyoruz.