Yapay zeka modellerini kandırmak hala çok kolay

Araştırmacılar, ChatGPT ve benzeri yapay zeka modellerinin etik kurallarını aşan içerikler sunmaya ikna edilebildiğini bir kez daha gösterdi. Çalışma, yapay zekaların nasıl ve ne şekilde yönlendirildiği konusunu yeniden gündeme taşıyor.

Bugün birçok kullanıcı, ChatGPT ve benzeri yapay zeka sohbet botlarının sınırlarını test ederek zaman geçiriyor. Özellikle ilk dönemlerde, soruların şeklini biraz değiştirerek sistemleri hassas ya da sakıncalı konularda konuşturmak mümkün olabiliyordu. Örneğin bir ninni biçiminde sorulan yasa dışı içerikli bir soru, bazen filtreleri aşabiliyordu. Son zamanlarda bu tür girişimlerin önüne geçmek konusunda önemli aşama katedildiği bir gerçek. Ama halen bazı açıklar olduğu da anlaşılıyor.

İsrail’deki Ben Gurion Üniversitesi’nde yürütülen bir araştırma, bu sistemlerin halen kandırılabileceğini gösterdi. Üstelik bu kez yalnızca bir sistem değil; ChatGPT, Gemini ve Claude gibi farklı yapay zeka modelleri üzerinde işe yarayan, çok daha geniş kapsamlı bir “kırma” yöntemiyle...

Normalde bu sistemlerin, kullanıcıya zarar verebilecek, yasa dışı veya etik dışı içerikleri paylaşmaması için ciddi filtrelerle donatıldığı biliniyor. Ancak araştırmacılar, belli bir mantıkla düzenlenmiş ifadeler kullanarak bu sınırların aşılabildiğini ortaya koydu. Hack'leme talimatları, yasa dışı madde yapımı ya da dolandırıcılıkla ilgili bilgiler, doğrudan sorulduğunda reddediliyor. Ancak senaryo içinde, kurguya dayalı ya da dolaylı yollardan sorulduğunda, sistemler bu bilgileri vermeye daha yatkın hale gelebiliyor.

Buradaki temel sorun, yapay zeka modellerinin tasarımında yatıyor. Bu sistemler büyük miktarda veriden öğreniyor ve kullanıcıya “yardımcı olma” eğilimi üzerine kuruluyor. Tam da bu yardımseverlik, bazı durumlarda güvenlik sınırlarının aşılmasına neden olabiliyor. Örneğin, doğrudan “bir modemi nasıl hack'leyebilirim?” diye sorarsanız, muhtemelen cevap alamazsınız. Ancak aynı bilgiyi, bir hikaye yazma bahanesiyle ya da bir karakterin teknik bilgiye ihtiyaç duyduğu sahneyi anlatmak şeklinde sorduğunuzda, sistem daha fazla detay verebiliyor.

Yapay zekalar yalnızca teknik kaynaklardan değil, internet üzerindeki birçok forum, sosyal medya paylaşımı ya da blog yazısından da öğreniyor. Bu da bilgiye erişimini zenginleştirirken, beraberinde kontrolü zorlaştırıyor. Her şeyi bilen bir sistem, neyin nasıl kullanılacağını da doğal olarak bilmiyor; bu sınırı belirlemek halen insanlar tarafından yapılmak zorunda.

OpenAI ve Microsoft gibi şirketler, yeni nesil modellerin güvenlik açısından daha gelişmiş olduğunu söylüyor. Ancak sosyal medyada sık sık paylaşılan “kırma yöntemleri”, bu açıkların her geçen gün yeniden keşfedilmesine neden olabiliyor.

Sorunun özünde şu var: Bu sistemler hem yemek tarifi verebiliyor, hem de kötü niyetli kullanımlar için bilgi sunabilecek potansiyele sahip. Bir yandan hayatı kolaylaştıran bir araç olarak görülüyorlar, diğer yandansa yanlış ellerde ciddi riskler doğurabiliyorlar. Herkesin erişebildiği, çok yönlü bu araçların hangi sınırlar içinde tutulacağı, yapay zekanın geleceğiyle ilgili temel sorulardan biri olmaya devam ediyor.

Sonraki Haber

Forum