Google’dan alışılmışın dışında yapay zekâ: Metni tek tek değil toplu yazıyor

Google DeepMind, Gemma 4 açık model ailesine yeni bir üye ekledi. DiffusionGemma adı verilen model, diğer yapay zekâ modellerinden farklı bir çalışma yöntemi kullanıyor. Model, metni kelime kelime üretmek yerine büyük bölümler halinde oluşturabiliyor. Google, bu sayede özellikle yerel sistemlerde daha yüksek hız elde ettiğini söylüyor.

Metni baştan sona değil, toplu oluşturuyor

Günümüzde çoğu yapay zekâ modeli metni soldan sağa doğru ve adım adım üretir. Her yeni kelime, bir öncekinin üzerine eklenir.

DiffusionGemma ise görüntü üretim modellerine daha yakın bir yapıya sahip. Model önce geçici işaretlerle dolu bir metin alanı oluşturuyor. Ardından bu alan üzerinde birçok kez işlem yaparak tahminlerini sürekli düzeltiyor. Sürecin sonunda ortaya tek parça halinde tamamlanmış bir metin çıkıyor.

Bu yöntem, görüntü üretiminde kullanılan "gürültü giderme" yaklaşımına benziyor. Ancak bu kez sonuç bir görsel değil, metin oluyor.

26 milyar parametreli model

DiffusionGemma, Google'ın açık kaynaklı modelleri arasında büyük modellerden biri olarak öne çıkıyor.

Model toplam 26 milyar parametreye sahip olsa da çalışma sırasında bunların yalnızca 3,8 milyarı aktif hale geliyor. Bu yapı sayesinde model, üst düzey ekran kartlarının sunduğu yaklaşık 18 GB bellekte çalışabiliyor.

Google'ın paylaştığı test sonuçlarına göre model, RTX 5090 ekran kartında saniyede yaklaşık 700 token üretebiliyor. Tek bir Nvidia H100 hızlandırıcısı kullanıldığında ise bu sayı 1.000 tokenin üzerine çıkıyor.

Şirket, bunun benzer boyuttaki standart Gemma modellerine göre yaklaşık dört kat daha yüksek üretim hızı anlamına geldiğini belirtiyor.

Bazı görevlerde avantaj sağlayabiliyor

DiffusionGemma aynı anda 256 tokene kadar işlem yapabiliyor. Bu durum özellikle doğrusal olmayan görevlerde avantaj sağlayabiliyor.

Google'a göre model; metin düzenleme, moleküler dizilim analizi ve matematiksel grafik oluşturma gibi alanlarda daha verimli çalışabiliyor.

Şirketin paylaştığı örneklerde modelin Sudoku çözmek için de uyarlandığı görülüyor. Sudoku, standart yapay zekâ modelleri için zor görevlerden biri kabul ediliyor. Çünkü bir hücredeki doğru değer, ilerideki birçok hücreyi etkileyebiliyor. DiffusionGemma ise büyük bir veri grubunu aynı anda değerlendirip hatalarını süreç boyunca düzeltebildiği için bu tür problemlerde avantaj elde edebiliyor.

Peki neden Gemini'de kullanılmıyor?

Bu yaklaşım daha hızlı görünse de bazı dezavantajları bulunuyor.

Google, metin üretiminde kullanılan difüzyon yönteminin hata oranının daha yüksek olabileceğini söylüyor. Görsel üretiminde tek bir piksel hatası genellikle büyük sorun yaratmaz. Ancak metinde yapılan küçük bir hata bile anlamın tamamen bozulmasına neden olabilir.

Ayrıca çıktı birkaç kelimeden oluşacaksa bu yöntem verimli çalışmıyor. Çünkü model kısa bir sonuç üretmek için bile geniş çaplı hesaplamalar yapmak zorunda kalıyor. Standart modeller ise bu tür kısa yanıtları daha az işlemle oluşturabiliyor.

Yerel sistemlerde daha verimli olabilir

Google'a göre difüzyon yaklaşımının en büyük avantajı yerel yapay zekâ uygulamalarında ortaya çıkıyor.

Bulut tabanlı sistemlerde çok sayıda kullanıcı aynı anda işlem yaptığı için donanım kaynakları zaten yoğun şekilde kullanılıyor. Bu nedenle mevcut yöntemler yüksek verim sağlayabiliyor.

Yerel bilgisayarlarda ise işlem gücü ve bellek kullanımı her zaman dengeli çalışmıyor. DiffusionGemma, kullanılmayan işlem kapasitesini daha etkili değerlendirebildiği için bu tür sistemlerde avantaj sağlayabiliyor.

Google'ın son dönemde kullandığı Multi-Token Prediction (MTP) yöntemi de üretim hızını artırmayı hedefliyor. Ancak şirket, DiffusionGemma'nın MTP kullanan Gemma sürümlerinden bile daha hızlı olduğunu ifade ediyor.

Şimdiden indirilebiliyor

Google, DiffusionGemma'nın deneysel bir proje olduğunu vurguluyor. Buna rağmen model, diğer Gemma 4 sürümleriyle aynı Apache 2.0 lisansı altında yayınlandı.

Model ağırlıkları şu anda geliştiricilerin kullanımına açık durumda. Google ayrıca Nvidia ile birlikte çalışarak modeli farklı donanımlara uygun hale getirdiğini belirtiyor. Bunlar arasında üst düzey RTX ekran kartları, Nvidia H100 sistemleri ve DGX Spark platformu da yer alıyor.