Kullanıcılara göre ChatGPT ancak 8. olabildi. Zirvede sürpriz isimler var!

LMArena sonuçları, teknoloji firmalarının sistemi “hileli” şekilde optimize etmesi veya katılım yanlılığı nedeniyle bozulabiliyor. Humaine bunu engellemek için tasarlandı. Çalışma ilk etapta 20.000 katılımcıyla başladı, bugün 25.000’e yakın kullanıcının verisine sahip. Testler tamamen anonim iki modelin karşılaştırıldığı çok turlu sohbetler üzerinden yapıldı. Katılımcılar ilgi duydukları konularda modellerle sohbet ederek hangisinin daha iyi olduğunu daha sağlıklı değerlendirdi. Başarı puanı şöyle hesaplandı:

  • Kazanan modele 1 puan
  • Berabere kalanlara 0,5 puan

Toplam 28 model olduğu düşünülürse maksimum puan 27. Ortalama ise 13,5 civarında.
Gemini 2.5 Pro’nun mevcut puanı 18.75, yani testlerin büyük bölümünü kazandığı net.

Her model için 1.400–2.300 arası karşılaştırma yapıldı, bu da sonuçların güvenilir olduğunu gösteriyor. Katılımcılar İngiltere ve ABD’den farklı yaş grupları, ırklar ve siyasi görüşlerden seçildi. En büyük sonuç farklılığının yaş grupları arasında olduğu görüldü. Ancak bunlar sıralamayı kökten değiştirecek kadar büyük farklar değil.

Forum