Mobil cihazlar için Google'dan yeni yapay zeka modeli: Gemma 3n

Geçen ay Google I/O'da ön izlemesi yapılan Gemma 3n'in tam sürüm artık hazır ve donanımınızda doğrudan çalıştırılabiliyor.

Google, mobil cihazlar için özel olarak tasarlanmış, önemli bir gelişmeyi temsil eden yeni yapay zeka modeli Gemma 3n'yi duyurdu. Geçen ay Google I/O'da ön izlemesi yapılan tam sürüm artık hazır ve donanımınızda doğrudan çalıştırılabiliyor. Google'ın kendi geliştirdiği Gemini'den farklı olarak, bu açık kaynaklı yapay zeka modeli, geliştiricilerin indirmesi ve üzerinde değişiklik yapması için sunuluyor.

Multimodal yetenekler ve optimizasyon
Gemma 3n, multimodal bir model olarak öne çıkıyor; yani görüntüler, ses ve video gibi çeşitli girdileri doğal olarak işleyebiliyor ve metin çıktıları üretebiliyor. Bu özellik, öncelikle metin tabanlı olan önceki versiyonlara göre büyük bir iyileşme sağlıyor. Model, 2 GB gibi düşük bir bellek kapasitesine sahip donanımlarda bile çalışabilecek şekilde cihaz içi kullanım için yüksek düzeyde optimize edilmiştir.

Model, E2B ve E4B olmak üzere iki boyutta sunuluyor. Ham parametre sayıları sırasıyla 5B ve 8B olmasına rağmen, mimari yenilikleri sayesinde geleneksel 2B ve 4B modellerine kıyasla benzer bellek ayak izleriyle çalışabiliyorlar.

Çığır açan mimari ve performans
Gemma 3n'nin çığır açan yönlerinden biri, hesaplama esnekliği sağlayan MatFormer mimarisi. Ayrıca bellek verimliliği için Katman Başına Gömme (PLE) ve mobil kullanım senaryoları için optimize edilmiş yeni ses ve MobileNet-v5 tabanlı vizyon kodlayıcıları içeriyor. Bu yenilikler, çok dillilik (metin için 140, multimodal anlama için 35 dil desteği), matematik, kodlama ve muhakeme dahil olmak üzere çeşitli alanlarda geliştirilmiş kaliteye katkıda bulunuyor. MatFormer mimarisi, daha büyük bir modelin içinde daha küçük, tamamen işlevsel bir sürüm barındıran bir Rus Matruşka bebeğine benzetilerek, tek bir modelin farklı görevler için farklı boyutlarda çalışmasına olanak tanıyor.

Performans açısından, daha büyük olan E4B modeli, 10B parametrenin altındaki modeller arasında 1300'ü aşan bir LMArena puanına ulaşan ilk model olmasıyla dikkat çekiyor. Ses yetenekleri arasında, konuşmayı ince detaylarla işleyen bir kodlayıcı kullanarak cihaz içi konuşmadan metne dönüştürme ve çeviri de bulunuyor. Görsel yetenekleri, Google Pixel cihazlarda saniyede 60 kareye kadar video işleyebilen, önceki sürümüne göre önemli ölçüde daha hızlı ve verimli olan yeni MobileNet-V5 kodlayıcı tarafından desteklenmekte.

Geliştiriciler, Gemma 3n'ye Hugging Face ve Kaggle gibi platformlar üzerinden veya doğrudan Google AI Studio'dan erişebilir ve deneyebilirler.

Sonraki Haber

Forum