Mobil cihazlar için Google'dan yeni yapay zeka modeli: Gemma 3n
Geçen ay Google I/O'da ön izlemesi yapılan Gemma 3n'in tam sürüm artık hazır ve donanımınızda doğrudan çalıştırılabiliyor.
Google, mobil cihazlar için özel olarak tasarlanmış, önemli bir gelişmeyi temsil eden yeni yapay zeka modeli Gemma 3n'yi duyurdu. Geçen ay Google I/O'da ön izlemesi yapılan tam sürüm artık hazır ve donanımınızda doğrudan çalıştırılabiliyor. Google'ın kendi geliştirdiği Gemini'den farklı olarak, bu açık kaynaklı yapay zeka modeli, geliştiricilerin indirmesi ve üzerinde değişiklik yapması için sunuluyor.
Multimodal yetenekler ve optimizasyon
Gemma 3n, multimodal bir model olarak öne çıkıyor; yani görüntüler,
ses ve video gibi çeşitli girdileri doğal olarak işleyebiliyor ve
metin çıktıları üretebiliyor. Bu özellik, öncelikle metin tabanlı
olan önceki versiyonlara göre büyük bir iyileşme sağlıyor. Model, 2
GB gibi düşük bir bellek kapasitesine sahip donanımlarda bile
çalışabilecek şekilde cihaz içi kullanım için yüksek düzeyde
optimize edilmiştir.
Model, E2B ve E4B olmak üzere iki boyutta sunuluyor. Ham parametre sayıları sırasıyla 5B ve 8B olmasına rağmen, mimari yenilikleri sayesinde geleneksel 2B ve 4B modellerine kıyasla benzer bellek ayak izleriyle çalışabiliyorlar.
Çığır açan mimari ve performans
Gemma 3n'nin çığır açan yönlerinden biri, hesaplama esnekliği
sağlayan MatFormer mimarisi. Ayrıca bellek verimliliği için Katman
Başına Gömme (PLE) ve mobil kullanım senaryoları için optimize
edilmiş yeni ses ve MobileNet-v5 tabanlı vizyon kodlayıcıları
içeriyor. Bu yenilikler, çok dillilik (metin için 140, multimodal
anlama için 35 dil desteği), matematik, kodlama ve muhakeme dahil
olmak üzere çeşitli alanlarda geliştirilmiş kaliteye katkıda
bulunuyor. MatFormer mimarisi, daha büyük bir modelin içinde daha
küçük, tamamen işlevsel bir sürüm barındıran bir Rus Matruşka
bebeğine benzetilerek, tek bir modelin farklı görevler için farklı
boyutlarda çalışmasına olanak tanıyor.
Performans açısından, daha büyük olan E4B modeli, 10B parametrenin altındaki modeller arasında 1300'ü aşan bir LMArena puanına ulaşan ilk model olmasıyla dikkat çekiyor. Ses yetenekleri arasında, konuşmayı ince detaylarla işleyen bir kodlayıcı kullanarak cihaz içi konuşmadan metne dönüştürme ve çeviri de bulunuyor. Görsel yetenekleri, Google Pixel cihazlarda saniyede 60 kareye kadar video işleyebilen, önceki sürümüne göre önemli ölçüde daha hızlı ve verimli olan yeni MobileNet-V5 kodlayıcı tarafından desteklenmekte.
Geliştiriciler, Gemma 3n'ye Hugging Face ve Kaggle gibi platformlar üzerinden veya doğrudan Google AI Studio'dan erişebilir ve deneyebilirler.