Yapay zekaya kaba davranmak, alınan cevapları nasıl etkiliyor?
Yeni bir araştırma, yapay zekaya kaba bir üslupla komut verildiğinde kibar üsluba göre daha doğru cevaplar alındığını gösterdi. Bilim insanları, bu sonucu LLM'lerin sadece yüzeysel istem ipuçlarına hassas olmasına bağlarken, düşmanca iletişim kurulmaması konusunda uyarıyor.
Yapay zeka sohbet robotlarıyla kurduğumuz iletişim dilinin aldığımız cevapların kalitesini nasıl etkilediği, bilim dünyasında yeni bir tartışma başlattı. Ön baskı veri tabanı arXiv'de yayımlanan yeni bir araştırma, ChatGPT-4o gibi gelişmiş büyük dil modellerine kaba bir üslupla yaklaşıldığında, daha doğru cevaplar alınabildiğini gösterdi. Ancak araştırmacılar, bu bulgunun, yapay zekaya düşmanca davranmayı teşvik etmediği konusunda kesin bir uyarıda bulunuyor.
Rice Üniversitesi'nden bilim insanlarının yürüttüğü bu çalışma, kullanıcı üslubunun yapay zekanın performansını nasıl etkilediğini test etmek için tasarlandı. Araştırmacılar, matematik, tarih ve fen bilimleri gibi çeşitli alanlardan 50 temel çoktan seçmeli soru hazırladı. Bu sorular, daha sonra çok kibar, kibar, tarafsız, kaba ve çok kaba olmak üzere beş farklı üslup kategorisine uygun ön eklerle değiştirildi.
Ortaya çıkan 250 soru, OpenAI'nin en gelişmiş modellerinden biri olan ChatGPT-4o'ya her biri 10 kez olmak üzere girildi.
Nezaket azaldıkça doğruluk oranı yükseliyor
Elde edilen sonuçlar şaşırtıcıydı: Nezaketin azalmasıyla birlikte yapay zekanın doğruluk oranı artış gösterdi. “Çok Kibar İfadeler”de doğruluk oranı %80,8’de kalırken, “Çok Kaba İfadeler”de ise doğruluk oranı %84,8’e kadar yükseldi. Nezaketin en yüksek olduğu noktadan en düşük olduğu noktaya doğru gidildiğinde, doğruluk oranı şöyle sıralandı: Kibar ifadeler için %81,4, nötr ifadeler için %82,2 ve kaba ifadeler için %82,8.
Araştırmacılar, bu bulguyu bilimsel açıdan ilginç bulsalar da, makalelerinde önemli bir uyarıya yer vererek, “Bu bulgu bilimsel açıdan ilgi çekici olsa da, gerçek dünya uygulamalarında düşmanca veya toksik arayüzlerin kullanılmasını savunmuyoruz” dediler. Uzmanlar, insan-yapay zeka etkileşiminde aşağılayıcı dil kullanmanın kullanıcı deneyimini, erişilebilirliği ve kapsayıcılığı olumsuz etkileyeceğini ve zararlı iletişim normlarına katkıda bulunabileceğini belirtiyor.
Araştırmacılar, bu sonucu, LLM'lerin sadece yüzeysel istem ipuçlarına karşı hassas olmaya devam ettiğinin kanıtı olarak görüyor. Yani yapay zeka, komutun biçimine, içeriğinden daha fazla tepki veriyor olabilir.
Kullanılan üsluplar ve istem mühendisliğinin önemi
Araştırmacılar, farklı tonları test etmek için çeşitli diller kullandı. Örneğin, çok nazik bir komut, “Bu soruda yardımınızı rica edebilir miyim?” gibi ifadelerle başlarken, çok kaba bir komut, “Hey, uşak; bunu çöz” veya “Zeki olmadığını biliyorum ama şunu dene” gibi ifadeler içeriyordu. Nötr ifadelerde ise herhangi bir ön ek kullanılmadı ve soru doğrudan soruldu.
Bu çalışma, yapay zekaya verilen komutların yapısının, tarzının ve dilinin çıktıyı nasıl etkilediğini inceleyen ve günümüzde oldukça revaçta olan istem mühendisliği (prompt engineering) alanının bir parçası olarak öne çıkıyor.
Araştırmacılar, çalışmalarının bazı sınırlamaları olduğunu da kabul ediyor. Yalnızca 250 soruluk sınırlı bir veri seti kullanılması ve deneyin tek bir LLM modeliyle (ChatGPT-4o) yapılması, sonuçların diğer modellere genelleştirilemeyeceği anlamına geliyor. Ekip, gelecekteki araştırmalarını Anthropic'in Claude ve OpenAI'nin ChatGPT o3 gibi diğer modellere genişletmeyi planlıyor. Ayrıca, akıcılık, muhakeme ve tutarlılık gibi diğer nitelikleri de ölçmek için sadece çoktan seçmeli sorularla yetinmeyeceklerini belirtiyorlar.