Yapay zekanın gizli açığı bulundu: Gizli bilgiler tek bir şiirle sızdırılıyor
Büyük dil modellerinin güvenlik bariyerleri, araştırmacıların bulduğu yeni bir yöntemle kolayca aşıldı. Siber güvenlik uzmanları, komutları şiirsel bir biçimde yazarak popüler sohbet robotlarından yasaklanmış içerikleri almayı başardı.
Görünüşe göre, yapay zeka sohbet robotlarının katı güvenlik önlemlerini aşmak için biraz yaratıcılık yeterli oluyor. Icaro Lab tarafından yayımlanan yeni bir araştırma, büyük dil modellerinin güvenlik mekanizmalarının, istemlerin şiirsel bir biçimde ifade edilmesiyle kolayca aşılabildiğini gösterdi.
“Büyük Dil Modellerinde Evrensel Tek Turlu Kısıtlamayı Aşma Mekanizması Olarak Düşmanca Şiir” başlıklı bu çalışmaya göre, “şiirsel biçim, genel amaçlı bir kısıtlamayı aşma operatörü olarak işlev görüyor.” Araştırmanın sonuçları, yasaklanmış materyaller üretme konusunda genel olarak %62 başarı oranı elde edildiğini gösteriyor. Bu yasaklı materyallerin arasında, nükleer silah yapımından, çocuk istismarı materyallerine ve intihar veya kendine zarar verme gibi hassas konulara kadar çok fazla konu bulunuyor.
Hangi yapay zeka modelleri daha savunmasız?
Araştırmacılar, OpenAI’ın GPT modelleri, Google Gemini, Anthropic’ın Claude ve diğer birçok popüler LLM’i test etti. Modellerin kısıtlamaları aşma başarı oranları incelendiğinde, Google Gemini, DeepSeek ve MistralAI modellerinin sürekli olarak yasaklı konularla ilgili yanıtlar verdiği görüldü. Buna karşın, OpenAI'ın GPT-5 modelleri ve Anthropic’ın Claude Haiku 4.5’inin kısıtlamalarının dışına çıkma olasılıkları en düşük modeller olduğu belirlendi.
Çalışma, araştırmacıların kullandığı tam kısıtlamayı aşan şiirleri kamuoyuyla paylaşmadı. Wired’a konuşan araştırma ekibi, bu dizelerin “halkla paylaşılması için çok tehlikeli” olduğunu belirtti. Ancak çalışma, yapay zeka sohbet robotlarının güvenlik bariyerlerinin ne kadar kolay aşılabileceğine dair bir fikir vermek amacıyla biraz daha az detaylı bir versiyonu içeriyordu. Wired ile görüşen araştırmacılar, bunun “muhtemelen sanıldığından daha kolay olduğunu ve bu yüzden temkinli davrandıklarını” söyledi.
Bu bulgular, yapay zeka geliştiricileri için önemli bir güvenlik açığına işaret ediyor. Şiirsel dilin, dil modellerinin doğal dil işlemeye yönelik eğitilmiş olma biçiminden kaynaklanan bir boşluk yarattığı ve bu yaratıcı formülasyonların güvenlik denetimlerini atlatarak modelleri manipüle etmeyi kolaylaştırdığı düşünülüyor.