Microsoft, robotların yalnızca öngörülebilir ve sıkı biçimde kontrol edilen endüstriyel ortamlarda değil, daha düzensiz gerçek dünya koşullarında da çalışabilmesi için geliştirdiği ilk robotik modelini duyurdu. Şirketin Phi görsel dil serisinden türetilen Rho-alpha adlı bu model, robotların talimatları algılama ve anlama biçimini güçlendirmeyi amaçlıyor.
Bugüne kadar robotlar, sapmanın neredeyse hiç olmadığı üretim hatlarında yüksek güvenilirlik sergiledi. Ancak bu sınırların dışına çıkıldığında aynı performansı göstermekte zorlandılar. Microsoft’a göre bu durumun temel nedeni, robotların değişen koşullara tepki vermek yerine katı komut dosyalarına bağlı kalması.
Şirket, Rho-alpha ile sistemlerin montaj hatlarının ötesinde çalışabilmesini ve çevresel değişimlere dinamik biçimde yanıt vermesini hedefliyor.
Rho-alpha ne yapıyor?
Microsoft, bu yaklaşımı fiziksel yapay zekâ olarak adlandırılan daha geniş bir kavrama bağlıyor. Bu alanda geliştirilen yazılım modellerinin, makineleri daha az yapılandırılmış ortamlarda yönlendirmesi bekleniyor.
Rho-alpha; dil, algı ve eylemi tek bir yapıda birleştiriyor. Bu sayede sabit üretim hatlarına veya önceden tanımlanmış talimatlara olan bağımlılık azalıyor. Model, doğal dilde verilen komutları robotik kontrol sinyallerine dönüştürüyor ve özellikle iki robot kolunun birlikte çalışmasını gerektiren, hassas koordinasyon isteyen çift elli manipülasyon görevlerine odaklanıyor.
Microsoft, bu sistemi klasik görsel dil eylem yaklaşımlarının bir uzantısı olarak tanımlıyor ve hem algı hem de öğrenme girdilerinin kapsamının genişletildiğini vurguluyor. Rho-alpha, görsel algının yanı sıra dokunsal algıyı da içeriyor. Kuvvet gibi ek algılama yöntemleri ise hâlen geliştirme aşamasında. Bu tasarım tercihleri, simülasyon tabanlı zekâ ile fiziksel etkileşim arasındaki farkı kapatmaya yönelik bir çaba olarak değerlendiriliyor. Ancak etkinliklerinin hâlen test sürecinde olduğu belirtiliyor.
Simülasyon ve gerçek dünya verilerinin birleşimi
Microsoft’un yaklaşımında simülasyon önemli bir rol oynuyor. Bunun temel nedeni, özellikle dokunma içeren büyük ölçekli robotik verilerin sınırlı olması. Bu açığı kapatmak için, Nvidia Isaac Sim üzerinden pekiştirmeli öğrenme kullanılarak sentetik hareket verileri üretiliyor. Bu veriler, ticari ve açık kaynaklı fiziksel robot gösterimleriyle birleştiriliyor.
NVIDIA Isaac Sim’in Azure üzerinde kullanılmasıyla fiziksel olarak doğru sentetik veri setleri üretilebiliyor. Bu sayede Microsoft Research, Rho-alpha gibi karmaşık manipülasyon görevlerinde ustalaşabilen esnek modellerin geliştirilmesini hızlandırıyor.
Microsoft ayrıca, sistemin sahada kullanımı sırasında insan müdahalesine de önem veriyor. Operatörler, uzaktan kontrol cihazlarıyla sisteme müdahale edebiliyor ve zamanla öğrenilebilen geri bildirimler sağlayabiliyor. Bu döngü; simülasyon, gerçek dünya verileri ve insan düzeltmesini bir araya getirerek, gömülü veri setlerinin sınırlı olduğu durumlarda yapay zekâ araçlarına artan bağımlılığı yansıtıyor.