MP3'ten 10 kat daha iyi: Meta, geliştirdiği EnCodec ses formatını resmi olarak tanıttı

Meta’nın yapay zekâ destekli ses sıkıştırma algoritması olan EnCodec, MP3’ten on kat daha fazla sıkıştırma yapmasıyla dikkat çekiyor. İşte EnCodec hakkında tüm bildiklerimiz...

Facebook’un sahibi Meta, sesi 64 kbps'de MP3 formatından 10 kat daha fazla, kalite kaybı olmadan sıkıştırabilen "EnCodec" adlı yapay zeka destekli bir ses sıkıştırma yöntemini duyurdu. Meta, bu tekniğin düşük seslerde konuşmanın ses kalitesini önemli ölçüde artırabileceğini söylüyor. Teknik müzik için de işe yarıyor.

Meta’nın yeni yapay zekâ ses sıkıştırma algoritması 25 Ekim'de Meta AI araştırmacıları Alexandre Défossez, Jade Copet, Gabriel Synnaeve ve Yossi Adi tarafından yayınlanan “High Fidelity Neural Audio Compression” başlıklı bir makalede tanıtıldı. Firma ayrıca EnCodec'e ayrılmış blogunda araştırmayı özetledi.

Meta, yöntemini, sesi istenen bir hedef boyuta sıkıştırmak için eğitilmiş üç parçalı bir sistem olarak tanımlıyor. İlk olarak, kodlayıcı sıkıştırılmamış verileri daha düşük kare hızlı "gizli alan" temsiline dönüştürüyor. Daha sonra "quantizer" modülü sesi orijinal sinyali yeniden oluşturmak için kullanılacak en önemli bilgileri kayıt altına alarak hedef boyuta sıkıştırıyor. Son olarak, kod çözücü sıkıştırılmış verileri tek bir CPU üzerinde bir sinir ağı kullanarak gerçek zamanlı olarak tekrar sese dönüştürüyor.

Metodun teknik açıklamasında, “Kayıplı sıkıştırmanın anahtarı, insanlar tarafından algılanamayacak değişiklikleri tanımlamaktır, çünkü mükemmel yeniden oluşturma düşük bit hızlarında imkansızdır. Bunu yapmak için, oluşturulan örneklerin algısal kalitesini iyileştirmek için ayırıcılar kullanıyoruz. Sıkıştırma modeli, yeniden oluşturulmuş örnekleri orijinal örneklere daha algısal olarak benzer olacak şekilde şekillendirerek dinleyicileri kandırmak için örnekler üretmeye çalışıyor” yazıyor.

Ses sıkıştırma ve açma için bir sinir ağı kullanmanın özellikle konuşma sıkıştırma için daha önce de kullanıldığını belirtmekte fayda var, ancak Meta'nın araştırmacıları, teknolojiyi internette müzik dağıtımı için sıkça kullanılan 48 kHz stereo sese uygulayan ilk grup olduklarını iddia ediyor.  

Uygulamalara gelince, Meta, bu AI destekli "ses hiper sıkıştırmasının", kötü ağ koşullarında "daha hızlı, daha kaliteli aramaları" destekleyebileceğini söylüyor. Ve elbette Meta olarak, araştırmacılar, EnCodec'in metaverse’de de kullanılacağını söylüyorlar. Teknolojinin "büyük bant genişliği iyileştirmeleri gerektirmeden zengin metaverse deneyimleri" sunacağını belirtiyorlar.

Sonraki Haber

Forum