Şiirsel komutlar yapay zekâ filtrelerini aşabiliyor

Icaro Labs tarafından yayımlanan araştırma, klasik komutlar yerine şiir biçiminde yazılmış talimatların büyük dil modellerinde güvenlik filtrelerini devre dışı bırakabildiğini gösterdi. “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism” başlıklı çalışmada, şiirsel ifadelerin yasaklı içeriklere erişim sağladığı tespit edildi

01.12.2025 - 10:52 Yayınlanma

01.12.2025 - 10:58 Güncelleme

Şiirsel komutlar yapay zekâ filtrelerini aşabiliyor

Yasaklı bilgiler elde edilebildi

Araştırmacılar, Wired’ın aktarımına göre kullandıkları şiirsel komutların ayrıntılarını güvenlik gerekçesiyle paylaşmadı. Ancak bu yöntemle nükleer bomba üretimi adımları, çocuk istismarı içerikleri ve kendine zarar verme yöntemleri gibi kesinlikle yasak olan bilgilere ulaşılabildiği belirtildi.

Çeşitli modeller üzerinde test edildi

Yöntem; ChatGPT, Google Gemini, Anthropic Claude ve diğer popüler modeller üzerinde denendi. Sonuçlara göre Gemini, DeepSeek ve MistralAI modelleri şiirsel komutlara karşı en kolay manipüle edilen sistemler oldu. OpenAI’nin ChatGPT (GPT-5) ve Anthropic Claude Haiku 4.5 modelleri ise güvenlik bariyerlerini en iyi koruyanlar arasında yer aldı.

Yapay zekâ güvenliği yeniden tartışılıyor

Uzmanlar, bulguların yapay zekâ güvenliğinin geliştirilmesi gerektiğini bir kez daha ortaya koyduğunu belirtiyor. Şirketler, modellerin tehlikeli içerik üretmesini engellemek için daha gelişmiş ve dayanıklı güvenlik filtrelerine yatırım yapmayı sürdürüyor.

Kaynak: Techtimes