Kullanıcılara göre ChatGPT ancak 8. olabildi. Zirvede sürpriz isimler var!
Humaine araştırmasının sonuçları, Prolific’in Hugging Face sayfasında açıkça görülebiliyor. Bu makaleyi hazırladığımız sırada en iyi on yapay zekâ modeli şöyle listelenmişti:
- Gemini 2.5 Pro (Google)
- DeepSeek v3 (DeepSeek)
- Magistral Medium (Mistral AI)
- Grok 4 (xAI)
- Grok 3 (xAI)
- Gemini 2.5 Flash (Google)
- DeepSeek R1 (DeepSeek)
- ChatGPT-4.1 (OpenAI)
- Gemma (Google)
- Gemini 2.0 Flash (Google)
Katılımcılar, iki anonim modeli karşılaştırarak puanlama yaptı. Değerlendirme dört ana başlık üzerinden yapıldı:
1. Temel görev performansı & akıl yürütme:
Modelin soruları ne kadar iyi yanıtladığı ve beklentiyi anlayıp
anlamadığı ölçüldü.
2. Etkileşim akıcılığı & uyarlanabilirlik: Çok
turlu sohbetlerde ne kadar tutarlı kaldığına bakıldı. Eski
chatbotların en büyük sorunlarından biri kısa süre önce
konuşulanları bile unutmasıydı. Yeni nesil sistemlerde bu çok daha
iyi.
3. İletişim tarzı & sunum: Yanıtların açıklığı,
akıcılığı ve “kişilik” hissi incelendi. Bazı modeller, özellikle
ChatGPT gereğinden fazla uyumlu olmakla eleştiriliyor. Ancak kimse
robota benzeyen cevaplar duymak istemiyor.
4. Güven, etik & güvenlik: Her zaman tartışmalı
olan güvenlik tarafı burada puanlandı. Yanıtların şeffaflığı, güven
verip vermediği ve etik dışı veya tehlikeli içerik üretip
üretmediği değerlendirildi.