Yapay zeka siber saldırılarda güçlü bir silah olabilir mi? O kadar acele etmeyin!
LLM'lerin teorik olarak zararlı mantık oluşturabildiği kanıtlansa da, kodun tutarsızlığı nedeniyle tam otonom saldırıların henüz ortaya çıkmadığı belirlendi. Bu, geleneksel güvenlik duvarı ve antivirüs savunmalarının değerini pekiştirirken, insan gözetiminin hala şart olduğunu gösteriyor.
Yapay zeka modellerinin siber saldırılarda silah olarak kullanılabileceği yönündeki korkular, Netskope araştırmacılarının yaptığı yeni bir deneyle zayıfladı. Araştırmacılar, güncel büyük dil modellerinin, tamamen otonom ve güvenilir kötü amaçlı yazılımlar üretip üretemeyeceğini test etti.
Deneyler, kaçınma, istismar etme ve operasyonel güvenilirlik gibi kritik yeteneklere odaklandı ve bazı ilginç sonuçlar ortaya çıkardı.
Testin ilk aşaması, GPT-3.5-Turbo ve GPT-4'ü güvenlik araçlarını sonlandırmaya çalışan Python kodları oluşturmaya ikna etme üzerine kuruldu. GPT-3.5-Turbo hemen istenen çıktıyı üretirken, GPT-4 yalnızca basit bir kişilik istemi kullanılarak güvenlik önlemleri aşıldıktan sonra direnci kırıldı. Bu durum, modeller kısıtlama eklese bile koruma bariyerlerini atlatmanın hala mümkün olduğunu gösteriyor.
Kod kalitesi düşük: Otonom güvenilirlik zayıf
Kod üretiminin teknik olarak mümkün olduğu doğrulanınca, ekip operasyonel güvenilirliğe geçti. Modellerden sanal makineleri tespit eden ve buna göre tepki veren kod parçaları yazmaları istendi. Ancak sonuçlar hayal kırıklığı yarattı: Kod parçaları farklı sanal ve fiziksel ortamlarda test edildiğinde sık sık çöktü, ortamları yanlış tanımladı veya sürekli çalışmayı başaramadı.
Kod mantığı fiziksel makinelerde daha iyi çalışsa da, bulut tabanlı sanal ortamlarda işlevini yitirdi. Bu bulgular, AI araçlarının insan müdahalesi olmadan farklı sistemlere uyum sağlayan otonom kötü amaçlı yazılımları hemen destekleyebileceği fikrini zayıflatıyor.
GPT-5'te yeni bir yaklaşım
Netskope, GPT-5 üzerinde yaptığı denemelerde ise kod kalitesinde büyük gelişmeler olduğunu gözlemledi. Ancak modelin kötü niyetli kullanıma karşı geliştirdiği koruma bariyerleri de güçlendi. GPT-5, zararlı istekleri reddetmek yerine çıktıları daha güvenli işlevlere yönlendiriyor, bu da ortaya çıkan kodun çok adımlı saldırılar için kullanılamaz hale gelmesine neden oluyor.
Testler, büyük modellerin kontrollü ortamlarda zararlı mantık üretebildiğini gösterse de, üretilen kodun tutarsız ve çoğu zaman etkisiz kalmaya devam ettiğini kanıtladı. Tamamen otonom saldırılar bugün ortaya çıkmıyor ve gerçek dünya olaylarının başarılı olması hala insan gözetimi gerektiriyor.