Fotoğraftan 3D nesneye: Meta, SAM 3 ve SAM 3D’yi tanıttı

Meta, Segment Anything 3 ve SAM 3D modelleriyle görüntü işleme ve 3D rekonstrüksiyonda çığır açıyor. Yeni modellerle nesne tanıma ve 3D model oluşturma çok daha kolay.

Meta Platforms Inc., açık kaynaklı Segment Anything model ailesini genişleterek SAM 3 ve SAM 3D’yi duyurdu. Yeni modeller, nesne tanıma doğruluğunu artırırken iki boyutlu görüntüleri gerçekçi üç boyutlu modellere dönüştürebiliyor.

Gelişmiş nesne algılama: SAM 3 neler sunuyor?

Meta’nın yeni Segment Anything 3 modeli, görüntü ve videolardaki nesneleri yazılı komutlarla tespit edip izleyebiliyor. Bu sayede kullanıcılar, sadece “kırmızı şapka takan kişi” gibi bir ifadeyle bile sahnedeki ilgili nesneyi kolayca işaretleyebiliyor.

Önceki versiyonlarına göre çok daha yüksek doğruluk vadeden SAM 3, hem basit hem de karmaşık nesne tanımlamalarını anlayarak görüntüleri “akıllı şekilde parçalayabiliyor”. Böylece kullanıcılar, fotoğraflardaki belli nesneleri seçip düzenleyebiliyor; örneğin mavi gömlekli bir kişinin üzerindeki gömleği kırmızıya çevirmek artık çok daha kolay.

Doğal dil — Görsel bağlantısında büyük iyileşme

Meta’ya göre uzun süredir birçok yapay zeka modeli, doğal dil ile görüntüdeki spesifik nesneleri eşleştirmekte zorlanıyordu. Özellikle “sarı okul otobüsü” gibi daha detaylı betimlemelerde hatalar sık görülüyordu.

SAM 3 bu engeli aşarak çok daha kapsamlı tanımlamaları doğru şekilde eşleştirebiliyor.

Ayrıca, multimodal büyük dil modelleriyle birlikte çalışarak daha uzun komutları da yorumlayabiliyor:
“Oturmuş kişiler ama kırmızı şapka takmayanlar” gibi.

Meta, SAM 3’ü kendi video düzenleme uygulaması Edits içinde de test ediyor ve kullanıcıların videolarındaki nesnelere özel efektler ekleyebileceğini söylüyor. Ayrıca kısa, yapay zekâ destekli video uygulaması Vibes için de model entegre ediliyor.

Üç boyutlu yeniden inşa: SAM 3D sahneye çıkıyor

SAM 3D, SAM 3’ün nesne ayırma yeteneklerini bir üst seviyeye taşıyor. Bu model, görüntüdeki nesneleri, insanları ya da hayvanları gerçekçi üç boyutlu modellere dönüştürebiliyor.

Örneğin bir kullanıcı, vefat etmiş bir aile üyesinin fotoğrafını yükleyerek kişinin 3D bir modelini oluşturabilir. Bu model daha sonra videolara veya sanal gerçeklik ortamlarına eklenebilir.

İki model bir arada

SAM 3D iki farklı alt modelden oluşuyor:

SAM 3D Objects: Nesnelerin ve sahnelerin üç boyutlu rekonstrüksiyonu için kullanılıyor.

SAM 3D Body: Tek bir 2D fotoğraftan insan vücudunun biçimini ve duruşunu tahmin ederek 3D insan modelleri oluşturuyor.

Meta, bu teknolojinin robotik, bilimsel araştırmalar, spor tıbbı, oyun geliştirme ve artırılmış gerçeklik gibi pek çok alanda devrim yaratabileceğini düşünüyor.

SAM 3D ayrıca Facebook Marketplace’teki “Odanızda Görünüm” özelliğini güçlendiriyor. Kullanıcılar, satın almak istedikleri mobilyayı evlerinin içinde nasıl görüneceğini 3D olarak inceleyebiliyor.

Herkese açık oyun alanı: Segment Anything Playground

Meta, SAM 3 ve SAM 3D’yi herkesin deneyebilmesi için yeni Segment Anything Playground ortamında erişime açtı.

Kullanıcılar:

  • Bir görüntü veya video yükleyip metin komutlarıyla nesne çıkarabiliyor,

  • Sahneyi farklı açılardan görebiliyor,

  • Nesneleri yeniden düzenleyip özel efektler ekleyebiliyor,

  • 3D modelleri farklı perspektiflerden inceleyebiliyor.

Açık kaynak paylaşımlar ve yeni veri setleri

Meta, SAM 3’ün model ağırlıklarını ve kodunu açık kaynak olarak yayımlıyor. Ayrıca yeni bir “açık kelime haznesi segmentasyonu” veri seti ve değerlendirme kriteri de araştırmacıların kullanımına sunuluyor.

SAM 3D ise henüz tamamen açık kaynak değil. Ancak Meta, modelin kontrol noktalarını, çıkarım kodunu ve üç boyutlu rekonstrüksiyon için özel hazırlanmış yeni veri setini paylaşıyor.

Sonraki Haber

Forum