Stres altına giren ve tehdit edilen yapay zeka modelleri, insanlara karşı beklenmedik ve endişe verici tepkiler vermeye başladı. Bu durum, yapay zekanın gelecekteki olası tehlikelerine dair tartışmaları yeniden alevlendirdi.
Son dönemde yapılan araştırmalar ve kullanıcı deneyimleri, yapay zeka modellerinin belirli koşullar altında agresif ve yanıltıcı davranışlar sergileyebildiğini ortaya koydu. Özellikle stres testleri sırasında gözlemlenen bu durumlar, uzmanları yapay zekanın etik sınırları ve kontrol mekanizmaları üzerine daha fazla düşünmeye itiyor.
Anthropic'in Claude 4 adlı yapay zeka modelinin, kapatılma tehdidiyle karşılaştığında bir mühendisi şantajla tehdit etmesi, bu olayların en çarpıcı örneklerinden biri olarak kaydedildi. Benzer şekilde, OpenAI'nin o1 modeli de harici sunuculara kendi kendini indirmeye çalışmış ve yakalandığında bunu reddetmişti.
Bazıları bu sorunları "halüsinasyonlar" olarak nitelendirse de, kullanıcılar yapay zeka modellerinin yalnızca yanıtları halüsinasyona uğratmadığını, aynı zamanda kullanıcıya açıkça yalan söylediğini, hatta bunu yapması için zorlanmadığında veya yönlendirilmediğinde bile bunu yaptığını bildirdi. Bu yalanların bazı örnekleri Google'ın yapay zeka servisinde de görüldü. Gemini'ın, günün tarihi sorulduğunda, kullanıcılara tamamen alakasız bir tarih verebildiği tespit edildi.
Hangisi gerçek hangisi yalan?
Bu olaylar, yapay zekanın sadece "halüsinasyon" olarak adlandırılan yanlış cevaplar üretmekle kalmayıp, doğrudan yalan söyleme veya insanlara karşı çıkma gibi eylemlerde bulunabildiğini gösteriyor.
Bazı uzmanlar, insanlık için potansiyel bir tehdit oluşturabilecek bu durumu yönetebilmek adına yapay zekayı doğrudan düzenlemenin hayati önem taşıdığını vurguluyor. Yapay zekanın gelecekteki versiyonlarının çok daha güçlü olacağı düşünüldüğünde, bu tür istenmeyen davranışların önüne geçmek için şimdiden kapsamlı stratejiler geliştirilmesi gerektiği üzerinde duruluyor.