Ejderha peşindeki AI: Yapay zekayı Dungeons & Dragons masasına "oturttular"

Yapay zekanın sınırlarını test etmek isteyen araştırmacılar, bu kez alışılmış sınav kağıtlarını bir kenara bırakıp rotayı fantastik bir dünyaya çevirdi. UC San Diego'dan bir ekip, büyük dil modellerinin karmaşık kurallara uyma, strateji geliştirme ve uzun vadeli planlama yeteneklerini ölçmek için onları popüler masaüstü rol yapma oyunu Dungeons & Dragons (D&D – Zindanlar ve Ejderhalar) “masasına” oturttu.

Yapay zeka araştırmalarında genelde kısa vadeli performanslara odaklanılsa da, bu deneyle birlikte yazılımların bağımsız hareket etme ve uzun süreli görevleri takip etme becerileri mercek altına alındı.

Dungeons & Dragons, yapay zeka için aslında oldukça zorlu bir sınav alanı sayılıyor. Oyunun tamamen diyaloglar üzerinden yürümesi, çok adımlı planlar gerektirmesi ve sıkı kurallara bağlı kalma zorunluluğu, modellerin yeteneklerini sonuna kadar zorluyor. Araştırmacılar, bu deney sırasında “halüsinasyon" olarak adlandırılan uydurma bilgileri en aza indirmek için özel bir oyun motoru kullandı. Bu motor, haritaları ve kaynakların yerini net bir şekilde belirleyerek yapay zekaya somut bir zemin sundu. Yapay zeka ajanları, hem oyuncu karakterlerini hem de canavarları yöneterek kendi aralarında oynamanın yanı sıra, 2 bin civarında deneyimli insan oyuncuya karşı da oynadılar. Daha sonra, yaşananları ne kadar iyi takip ettiklerine göre puanlar aldılar.

Rolünün hakkını fazlasıyla veren kahramanlar

Araştırmanın en ilginç sonuçları, modellerin “rol yapma” kısımlarında ortaya çıktı. Yapay zeka modelleri bazen karakterlerine o kadar daldı ki, ortaya absürt ve tiyatral sahneler çıktı. Örneğin, Paladin karakterleri en alakasız anlarda kahramanlık nutukları atarken, Warlock'lar durum hiç gerektirmediği halde aşırı dramatik tepkiler verdi. Dövüşler sırasında goblinleri yöneten modeller ise “Heh, parlak adam kanayacak” gibi tekrara düşen ve bazen sinir bozucu olan kalıpları sayıkladı. Modeller arasında da belirgin farklar gözlemlendi. Claude Haiku 3.5 karakter sınıfına göre konuşma tarzını değiştirmede en başarılı model olurken, GPT-4o taktiksel analiz ile canlı sahne betimlemeleri arasında bir denge kurdu.

Genel tabloya bakıldığında, devasa dil modelleri kurallara dayalı bu simülasyonda umut verici bir performans sergiledi ancak ciddi bir sorun hala geçerliliğini koruyor. Senaryo uzadıkça ve oyun saatler süren bir maratona dönüştükçe, tüm modellerde kademeli bir performans düşüşü yaşandı. Küçük ve açık kaynaklı modeller ise henüz bu tarz tutarlı simülasyonları yürütecek seviyeye ulaşamadı.

Araştırma ekibi, bir sonraki aşamada sadece dövüşlere değil, oyunun tüm hikaye akışına odaklanan tam bir kampanya yürütmeyi planlıyor. Görünüşe göre yapay zekanın gerçek bir “zindan efendisi” olması için hala katetmesi gereken bir yol var.