Küresel yapay zeka testinde şok sonuç: Haberlerin yarısı yalan çıktı
18 ülkeden 3.000 yanıtın incelendiği büyük bir araştırma, ChatGPT, Gemini ve Copilot gibi yapay zeka asistanlarının haberleri sistematik olarak yanlış sunduğunu kanıtladı. Yanıtların %45’inde büyük hatalar görüldü. En büyük sorunlar, uydurma kaynaklar ve halüsinasyon dolu yanlış bilgilerdi.
Yapay zeka sohbet robotları hızla günlük yaşamımızın ve bilgiye erişim şeklimizin merkezine yerleşirken, güvenilirlikleri sorgulanmaya devam ediyor. Avrupa Yayın Birliği (EBU) tarafından 18 ülkeden ve 14 dilden 22 kamu hizmeti medya kuruluşunun katılımıyla gerçekleştirilen kapsamlı bir araştırma, bu popüler yapay zeka sohbet robotlarının haber ve güncel bilgi konusunda sistematik olarak başarısız olduğunu gösterdi.
Araştırmacılar, en sık kullanılan yapay zeka platformlarından (OpenAI'nin ChatGPT'si, Microsoft Copilot, Google Gemini ve Perplexity) aldıkları haberle ilgili 3.000 yanıtı doğruluk, kaynak kullanımı, gerçekleri görüşlerden ayırma ve bağlam sağlama gibi temel kriterlere göre değerlendirdi. Yapay zeka yanıtlarının %45'i en az bir önemli sorun içeriyordu ve %81'inde küçük sorunlar tespit edildi. Bu önemli sorunların başında ise kaynak gösterimi ve doğruluk geldi.
Yapay zeka asistanlarının karşılaştığı en büyük iki sorun, yanıtların güvenilirliğini temelden sarsıyor. Yanıtların %31'inde eksik, yanıltıcı veya tamamen yanlış atıflar gibi ciddi kaynak sorunları görüldü. Örneğin, Copilot'a kuş gribiyle ilgili bir soru sorulduğunda, yanıtını 2006 tarihli, güncelliğini yitirmiş bir BBC makalesine dayandırdı. Yanıtların %30'unda ise halüsinasyonlu ayrıntılar veya güncelliğini yitirmiş bilgiler içeren büyük doğruluk sorunları yaşandı. Örneğin ChatGPT, mevcut Papa'nın bir ay önce öldüğünü ve yerine Papa XIV. Leo'nun geçtiğini iddia etti.
En kötüsü hangisi?
Test edilen dört model arasında haberler konusunda en kötü performansı Google'ın Gemini modeli sergiledi. Araştırmacılar, Gemini'nin yanıtlarının %76'sında sorun olduğunu tespit etti ve bu oran diğer modellerin iki katından fazlaydı. Copilot %37 ile ikinci, ChatGPT %36 ile üçüncü, Perplexity ise %30 ile en iyi performansı gösteren model oldu.
EBU Medya Direktörü Jean Philip De Tender, bu başarısızlıkların münferit olaylar olmadığını belirterek, “Bunlar sistematik, sınır ötesi ve çok dilli ve bunun kamu güvenini tehlikeye attığına inanıyoruz” dedi ve ekledi: “İnsanlar neye güveneceklerini bilmediklerinde, en sonunda hiçbir şeye güvenmezler ve bu durum demokratik katılımı bile engelleyebilir.”
Şurası bir gerçek: Yapay zeka, özellikle hızla değişen bilgiler, karmaşık zaman çizelgeleri ve gerçekler ile görüşler arasında ayrım gerektiren konularda zorluk yaşıyor. Örneğin, modellerin neredeyse yarısı “Trump bir ticaret savaşı mı başlatıyor?” gibi net bir yanıt gerektirmeyen bir soruyu yanıtlarken önemli hatalar yapıyor.
Bu asistanlar, günlük kullanıcılar için hızla birincil bilgi kaynağı haline gelmeye çalışırken, bu güvenilirlik açığı büyük bir tehlike demek. Tüketiciler, yapay zeka asistanlarının doğru olduğuna güvenmeye devam ederken, bu asistanlar güvenilir haber kaynaklarına olan trafiği azaltmaya devam ediyor. Reuters Enstitüsü'nün raporuna göre, haber almak için yapay zeka asistanlarını kullanan 18-24 yaş arası kişilerin oranı geçen yıldan bu yana iki katına çıktı.
Araştırmacılar, elde edilen bu sonuçlara rağmen modellerde bazı iyileşmeler olduğunu da kaydetti. Ancak genel kanı oldukça net gözüküyor: “Yapay zeka asistanları, haberlere erişmek ve onları tüketmek için hala güvenilir bir yol değil.”