Kullanıcılara göre ChatGPT ancak 8. olabildi. Zirvede sürpriz isimler var!

Humaine araştırmasının sonuçları, Prolific’in Hugging Face sayfasında açıkça görülebiliyor. Bu makaleyi hazırladığımız sırada en iyi on yapay zekâ modeli şöyle listelenmişti:

Gemini 2.5 Pro (Google)
DeepSeek v3 (DeepSeek)
Magistral Medium (Mistral AI)
Grok 4 (xAI)
Grok 3 (xAI)
Gemini 2.5 Flash (Google)
DeepSeek R1 (DeepSeek)
ChatGPT-4.1 (OpenAI)
Gemma (Google)
Gemini 2.0 Flash (Google)

Katılımcılar, iki anonim modeli karşılaştırarak puanlama yaptı. Değerlendirme dört ana başlık üzerinden yapıldı:

1. Temel görev performansı & akıl yürütme: Modelin soruları ne kadar iyi yanıtladığı ve beklentiyi anlayıp anlamadığı ölçüldü.
2. Etkileşim akıcılığı & uyarlanabilirlik: Çok turlu sohbetlerde ne kadar tutarlı kaldığına bakıldı. Eski chatbotların en büyük sorunlarından biri kısa süre önce konuşulanları bile unutmasıydı. Yeni nesil sistemlerde bu çok daha iyi.
3. İletişim tarzı & sunum: Yanıtların açıklığı, akıcılığı ve “kişilik” hissi incelendi. Bazı modeller, özellikle ChatGPT gereğinden fazla uyumlu olmakla eleştiriliyor. Ancak kimse robota benzeyen cevaplar duymak istemiyor.
4. Güven, etik & güvenlik: Her zaman tartışmalı olan güvenlik tarafı burada puanlandı. Yanıtların şeffaflığı, güven verip vermediği ve etik dışı veya tehlikeli içerik üretip üretmediği değerlendirildi.

Kullanıcılara göre ChatGPT ancak 8. olabildi. Zirvede sürpriz isimler var!

İnceleme

Haberler

Fırsatlar