Yasaklı bilgiler elde edilebildi
Araştırmacılar, Wired’ın aktarımına göre kullandıkları şiirsel komutların ayrıntılarını güvenlik gerekçesiyle paylaşmadı. Ancak bu yöntemle nükleer bomba üretimi adımları, çocuk istismarı içerikleri ve kendine zarar verme yöntemleri gibi kesinlikle yasak olan bilgilere ulaşılabildiği belirtildi.
Çeşitli modeller üzerinde test edildi
Yöntem; ChatGPT, Google Gemini, Anthropic Claude ve diğer popüler modeller üzerinde denendi. Sonuçlara göre Gemini, DeepSeek ve MistralAI modelleri şiirsel komutlara karşı en kolay manipüle edilen sistemler oldu. OpenAI’nin ChatGPT (GPT-5) ve Anthropic Claude Haiku 4.5 modelleri ise güvenlik bariyerlerini en iyi koruyanlar arasında yer aldı.
Yapay zekâ güvenliği yeniden tartışılıyor
Uzmanlar, bulguların yapay zekâ güvenliğinin geliştirilmesi gerektiğini bir kez daha ortaya koyduğunu belirtiyor. Şirketler, modellerin tehlikeli içerik üretmesini engellemek için daha gelişmiş ve dayanıklı güvenlik filtrelerine yatırım yapmayı sürdürüyor.




