"Dr. Google" döneminden "Dr. ChatGPT"ye geçiş

YZ araçları, insanların hem semptomlar hem de teşhisler hakkında tıbbi tavsiye alma şeklini değiştiriyor. "Dr. Google" dönemi, "Dr. ChatGPT" çağına dönüşmeye başladı. Tıp fakülteleri, hekimler, hasta grupları ve sohbet botlarını yaratanlar, bu LLM'lerin tıbbi cevaplarının ne kadar doğru olduğunu, hastaların ve doktorların bunları en iyi nasıl kullanmaları gerektiğini ve yanlış bilgi verilen hastalarla nasıl başa çıkılacağını belirlemek için yarışıyor.

Yapay zeka ve insan doğruluğu arasındaki uçurum
Buradaki anahtar kelime potansiyel. Birkaç çalışma, YZ'nin belirli koşullarda doğru tıbbi tavsiye ve teşhis sağlama yeteneğine sahip olduğunu gösteriyor. Ancak bu araçlar insanların eline geçtiğinde (ister doktor ister hasta olsun) doğruluk genellikle düşüyor. Kullanıcılar, YZ'ye tüm semptomlarını sağlamamak veya kendilerine geri verilen doğru bilgiyi göz ardı etmek gibi hatalar yapabiliyorlar.

Bir çalışmada, araştırmacılar hekimlere bir dizi vaka verip hastalarda farklı hastalıkların olma şansını tahmin etmelerini isteniyor. Bu, önce hastaların semptomlarına ve geçmişlerine göre, sonra da laboratuvar sonuçlarını gördükten sonra tekrarlanıyor. Bir grup YZ yardımına erişirken, diğer grup erişemiyor. Her iki grup da tanısal muhakeme ölçümünde benzer performans gösteriyor. Bu ölçüm sadece teşhisin doğruluğuna değil, aynı zamanda muhakemelerini nasıl açıkladıklarına, alternatifleri nasıl değerlendirdiklerine ve sonraki adımları nasıl önerdiklerine de bakıyor. YZ destekli grubun ortalama tanısal muhakeme puanı yüzde 76 iken, sadece standart kaynakları kullanan grubun puanı ise yüzde 74. Ancak YZ tek başına test edildiğinde (herhangi bir insan girdisi olmadan), yüzde 92'lik ortalama bir puanla çok daha yüksek puan alıyor.

2023'te araştırma yürütüldüğünde YZ sohbet botları hala nispeten yeni olduğu için doktorların bu araçlara aşina olmamasının doğru teşhise ulaşma yeteneklerini azaltmış olabilir. Ancak bunun ötesinde, daha geniş içgörü, hekimlerin kendilerini hala birincil bilgi filtresi olarak görmeleri. Kendileri ile hemfikir olduğunda kabullenmişler ve aynı fikirde olmadığında bunu göz ardı etmişler. Makine onlara yanlış olduklarını söylediğinde güvenmemişler.

1.200'den fazla katılımcıyla yapılan başka bir çalışma, YZ'nin kendi başına neredeyse yüzde 95 oranında doğru teşhis koyduğunu, ancak insanların aynı araçları kendi düşüncelerini yönlendirmek için kullandıklarında bu oranın sadece üçte bire düştüğünü gösteriyor. Örneğin, çalışmadaki bir senaryo, aniden ortaya çıkan ağrılı bir baş ağrısı ve boyun tutulmasını içeriyordu. Doğru eylem, menenjit ya da beyin kanaması gibi potansiyel ciddi bir durum için derhal tıbbi yardım aramaktır. Bazı kullanıcılar YZ'yi doğru cevaba ulaşmak için kullanabilirken, diğerlerine sadece reçetesiz satılan ağrı kesici alıp karanlık bir odada uzanmaları söylendi. Çalışma, YZ'nin yanıtları arasındaki temel farkın sağlanan bilgilerden kaynaklandığını gösteriyor. Yanlış cevap, semptomların aniden başladığı kullanıcı tarafından belirtilmediğinde üretilmiş.

Yapay zekanın güven veren yanıltıcılığı ve insan tecrübesinin değeri
Sağlanan bilgi doğru olsun ya da yanlış olsun, YZ cevaplarını doğruymuş gibi güvenle sunuyor ve bu bir sorun. Bir internet araması, takip edilecek bir web sitesi ve bağlantılar listesi döndürürken, YZ sohbet botları net şeklinde yazıyor. Yapılandırılmış bir metin olarak karşınıza çıktığında daha yetkili hissediliyor. Çok iyi yapılandırılmış ve bir şekilde biraz daha gerçek hissettiriyor. Ve doğru olsa bile, bir YZ ajanı sağladığı bilgiyi, hekimlerin deneyimle kazandığı bilgiyle tamamlayamıyor. Örneğin, IVF düşünülürken, çiftler embriyolarının yaşayabilirliği için oran alacaktır. Ancak sadece bu puanlara dayanarak bir sonraki adımlar hakkında ChatGPT'den öneri istemek, diğer önemli faktörleri dikkate almıyor. Örneğin embriyoya ne zaman biyopsi yapıldığı, hastanın rahim zarının durumu ve geçmişte doğurganlık tedavisiyle başarılı olup olmadığı gibi.

Yapay zeka geliştiricileri ve tıp eğitiminin geleceği
Bu YZ sohbet botlarının arkasındaki şirketler, dağıtılan tıbbi bilgilerle ilgili endişeleri gidermek için araçlar geliştiriyor. ChatGPT'nin ana şirketi OpenAI, 12 Mayıs'ta YZ'nin sağlık sorularına yanıt verme yeteneklerini ölçmek için tasarlanmış bir sistem olan HealthBench'i başlattığını duyurdu. OpenAI, programın 60 ülkeden 260'tan fazla hekimin yardımıyla inşa edildiğini ve kullanıcılar ile YZ modelleri arasında 5.000 simüle edilmiş sağlık konuşması içerdiğini, yanıtları değerlendirmek için doktorlar tarafından tasarlanmış bir puanlama kılavuzuna sahip olduğunu belirtiyor. Şirket, YZ modellerinin önceki versiyonlarında doktorların sohbet botu tarafından üretilen yanıtları geliştirebildiğini, ancak GPT-4.1 gibi Nisan 2025 itibarıyla mevcut olan en son modellerin insan doktorlar kadar iyi veya daha iyi olduğunu iddia ediyor.

OpenAI web sitesinde, "Bulgularımız, büyük dil modellerinin zamanla önemli ölçüde geliştiğini ve kıyaslama ölçütümüzde test edilen örneklere yanıt yazmada uzmanlardan zaten daha iyi performans gösterdiğini gösteriyor" diyor. "Yine de en gelişmiş sistemlerin bile, özellikle yetersiz tanımlanmış sorgular ve en kötü senaryo güvenilirliği için gerekli bağlamı aramada önemli iyileştirme alanları var."

Diğer şirketler, özellikle tıp uzmanlarının kullanması için tasarlanmış sağlığa özel araçlar geliştiriyor. Microsoft, testlerde insan doktorlardan dört kat daha doğru teşhis koyan MAI Diagnostic Orchestrator (MAI-DxO) adlı yeni bir YZ sistemi oluşturduğunu belirtiyor. Sistem, OpenAI'nin GPT'si, Google'ın Gemini'si, Anthropic'in Claude'u, Meta'nın Llama'sı ve xAI'nin Grok'u dahil olmak üzere önde gelen birkaç büyük dil modelini, birden fazla insan uzmanın birlikte çalışmasını gevşek bir şekilde taklit eden bir şekilde sorgulayarak çalışır.

Harvard Tıp Fakültesi tıp eğitimi dekanı Bernard S. Chang, yeni doktorların hem bu YZ araçlarını nasıl kullanacaklarını hem de onları kullanan hastaları nasıl yönlendireceklerini öğrenmeleri gerekeceğini söylüyor. Bu yüzden üniversitesi, öğrencilere uygulamalarında teknolojiyi nasıl kullanacaklarına dair dersler sunan ilk üniversitelerden biri. Chang, "Şu anda tıp eğitiminde yaşanan en heyecan verici şeylerden biri" diyor.

Durum, Chang'a 20 yıl önce insanların tıbbi bilgi için internete başvurmaya başladığı zamanı hatırlatıyor. Hastalar ona gelip "Umarım Google kullanan doktorlardan değilsinizdir" derlerdi. Ancak arama motoru her yerde yaygınlaştıkça, bu hastalara şöyle cevap vermek istemiş: "Kullanmayan bir doktora gitmek istemezdiniz." Şimdi YZ ile de aynı şeyin olduğunu görüyor. "Tıbbın ön saflarında pratik yapan ve bu güçlü aracı kullanmayan bir doktor olabilir mi ki?"