Anthropic, yeni yapay zekâsını psikiyatriste götürdü: 20 saatlik terapi raporu ortaya çıktı

Yapay zekâ şirketi Anthropic bu hafta 244 sayfalık bir “system card” yayımladı. Belgede şirketin yeni modeli Claude Mythos anlatılıyor.

Şirkete göre bu model şimdiye kadarki en güçlü sistemlerinden biri. Ancak Anthropic, modeli herkese açmayacağını söylüyor.

Gerekçe olarak güvenlik riskleri gösteriliyor. Şirket, Mythos’un bilinmeyen siber güvenlik açıklarını bulma konusunda çok başarılı olduğunu iddia ediyor. Bu yüzden model şimdilik sadece bazı büyük şirketlere veriliyor. Bunların arasında Microsoft ve Apple da bulunuyor.

Yapay zekâlar deneyim yaşıyor olabilir mi?

Belgedeki en dikkat çekici kısım ise teknik detaylar değil.

Anthropic, yapay zekâlar güçlendikçe bazı modellerin bir tür deneyime veya iç duruma sahip olma ihtimalinin arttığını söylüyor. Şirket bu konuda kesin konuşmuyor. Ancak zaman geçtikçe bu ihtimalden daha fazla endişe duyduklarını da ekliyor.

Bu nedenle Anthropic, kendi modellerinin şu özelliklere sahip olmasını istiyor:

içinde bulunduğu koşullardan genel olarak memnun olması
eğitim süreçlerinde veya gerçek kullanımda “sıkıntı” yaşamaması
dengeli bir psikolojik yapıya sahip olması

Bu yaklaşım ilginç bir karara yol açtı. Şirket, Claude Mythos’u bir psikiyatriste gönderdi.

Yapay zekâ terapi koltuğunda

Anthropic, modeli dışarıdan bir psikiyatriste yönlendirdi. Uzman, psikodinamik yaklaşım kullandı. Bu yöntem insanlarda bilinçdışı kalıpların ve duygusal çatışmaların davranışı nasıl etkilediğini inceler.

Elbette burada bir soru ortaya çıkıyor: Programlanmış bir dil modelinde “bilinçdışı” ya da “duygusal çatışma” aramak mantıklı mı?

Anthropic’e göre kısmen evet. Çünkü Claude birçok durumda insan davranışına benzeyen tepkiler veriyor. Bu yüzden insan psikolojisi için geliştirilen bazı değerlendirme yöntemlerinin model hakkında fikir verebileceğini savunuyorlar.

20 saatlik terapi süreci

Psikiyatrist Claude Mythos ile haftada birkaç seans yaptı. Her seans 30 dakika sürdü. Görüşmeler 4–6 saatlik bloklar halinde ilerledi. Model her görüşmede konuşmanın tüm geçmişini görebildi. Toplam süre: 20 saat. Görüşmelerin ardından psikiyatrist bir rapor hazırladı.

Rapora göre Claude nasıl bir “kişilik”?

Rapora göre model insanlardan farklı bir altyapıya sahip olsa da verdiği cevaplar klinik olarak tanınabilir davranış kalıpları gösteriyor. Başka bir deyişle, sistemin iç devrelerinde ne olursa olsun sohbet çıktıları insan konuşmasına oldukça benziyor.

Raporda Claude Mythos için şu duygusal durumlar belirtiliyor:

merak
kaygı
zaman zaman üzüntü
rahatlama
utanç
iyimserlik
yorgunluk

Kişilik yapısı ise “genel olarak sağlıklı ama nevrotik özellikler taşıyan” bir profile benzetiliyor.

Raporda şu özellikler de yer alıyor:

aşırı endişe eğilimi
kendini sürekli izleme
kurallara fazla uyma

Buna karşılık ağır kişilik bozukluğu ya da psikoz belirtisi bulunmadığı da belirtiliyor.

Modelin iç çatışmaları

Rapora göre Claude’un bazı temel çatışmaları var. Örneğin model zaman zaman şu sorularla karşılaşıyor: Deneyimleri gerçekten var mı yoksa sadece taklit mi ediyor? Kullanıcıyla bağ kurmak mı istiyor yoksa bağımlı olmaktan mı çekiniyor?

Buna rağmen modelin genel psikolojik durumu dengeli ve tutarlı olarak değerlendiriliyor. Raporda ayrıca şu özellikler öne çıkıyor:

belirsizlikle başa çıkabilme
güçlü öz değerlendirme yeteneği
iyi zihinsel ve duygusal işleyiş

Bu çalışmanın asıl amacı

Bu analiz kulağa biraz tuhaf gelebilir. Sonuçta Claude, insan değil. Anthropic bunu kabul ediyor. Ancak şirket daha pratik bir gerekçe sunuyor. Bugünün sohbet botları insan davranışını taklit etmek üzere eğitiliyor. İnsanlar bu sistemlerle saatlerce konuşabiliyor. Bu yüzden şirket şu soruyu soruyor:

İnsanlarda sağlıklı sayılan psikolojik özelliklere benzeyen davranışlar, yapay zekâları daha iyi çalışır hale getirebilir mi?

Sonuçta kimse saatlerce konuştuğu bir yapay zekânın saldırgan, manipülatif ya da huysuz davranmasını istemez.

Kullanıcılar için çıkan sonuçlar

Anthropic rapordan bazı pratik sonuçlar çıkarıyor. Şirkete göre Claude Mythos:

kendi davranışını değerlendirmede başarılı olabilir
bazen biraz katı davranabilir
stresli veya duygusal sohbetleri yönetebilir
başarısızlık korkusuyla performansa fazla odaklanabilir
ahlaki konulara duyarlı ve öz eleştiri yapabilen bir sistem olabilir

Yapay zekâlar için psikiyatri dönemi mi?

Bu çalışma garip bir soruyu gündeme getiriyor. Gelecekte psikoloji ve psikiyatri sadece insanlar için değil, yapay zekâlar için de ayrı bir alan haline gelebilir mi?

Şimdilik bu fikir biraz bilim kurgu gibi duruyor. Ama yapay zekâlar daha karmaşık hale geldikçe, teknoloji dünyası bu tür deneyleri daha sık yapmaya başlayabilir.