OpenAI, API tarafında üç yeni ses modelini kullanıma açtı. Amaç, geliştiricilerin gerçek zamanlı sesli uygulamalar kurmasını kolaylaştırmak. Yeni sistemler; konuşma, çeviri ve ses yazıya dökme işlerini ayrı ayrı ele alıyor.
Modellerin adı: GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper.
Şirket, bu hamleyi “sesli etkileşimi günlük yazılım kullanımına daha yakın hale getirme” hedefiyle açıklıyor.
Sesli yapay zekada yeni dönem
OpenAI, sesin artık yazıdan daha doğal bir etkileşim yolu haline geldiğini söylüyor. Bu modeller de buna göre tasarlandı.
Hedef kullanım senaryoları net:
-
araba kullanırken sesli komutlar
-
havaalanında yön bulma
-
müşteri hizmetleriyle yazmadan iletişim kurma
Yani sistem, ekran yerine konuşmaya odaklanıyor.
GPT-Realtime-2: En güçlü model
Yeni serinin ana modeli GPT-Realtime-2.
OpenAI bu modeli, “GPT-5 seviyesinde mantık kurabilen ilk ses modeli” olarak tanımlıyor. Model şunları yapabiliyor:
-
karmaşık soruları daha iyi çözme
-
konuşma sırasında bölünmelere uyum sağlama
-
sohbeti koparmadan devam ettirme
-
araç kullanımı ve canlı işlem
Model, konuşma sırasında dış araçlara bağlanabiliyor. Örneğin:
-
takvime bakabiliyor
-
arama yapabiliyor
-
sistem içi verilere ulaşabiliyor
Bunu yaparken kullanıcıya da açıklama veriyor: “takviminize bakıyorum” gibi.
Daha uzun konuşma hafızası
Bağlam penceresi 32K’dan 128K’ya çıkarıldı. Bu da:
-
daha uzun sohbet
-
daha fazla veri
-
daha az kopma
anlamına geliyor.
Teknik iyileştirmeler
OpenAI bazı performans verileri de paylaştı:
-
Big Bench Audio testinde %15,2 daha iyi sonuç
-
talimat takip testlerinde %13,8 artış
Ayrıca model:
hata sonrası daha iyi toparlanıyor
tıp ve özel alan terimlerini daha iyi anlıyor
Rekabet: Google Gemini Live
OpenAI bu alanda doğrudan Google Gemini Live ile rekabet ediyor.
Google tarafı genelde: daha hızlı yanıt ve daha geniş dil desteği sunuyor. OpenAI ise farklı bir noktaya oynuyor:
-
daha doğal sohbet akışı
-
uzun konuşmalarda kopmama
-
konuşma sırasında işlem yapabilme
Yani hızdan çok “konuşma hissi”ne odaklanıyor.
GPT-Realtime-Translate: Canlı çeviri
İkinci model GPT-Realtime-Translate. Bu model konuşmayı anlık çeviriyor:
-
70’ten fazla dili alıyor
-
13 dile anında çeviriyor
-
konuşma hızını bozmuyor
-
kullanım alanı
-
müşteri hizmetleri
-
seyahat
-
çok dilli iletişim sistemleri
Örnek olarak Deutsche Telekom, bu sistemi müşteri destek hatlarına entegre etmeye hazırlanıyor. Kullanıcı kendi dilinde konuşuyor, sistem anında çeviriyor.
GPT-Realtime-Whisper: Konuşmayı yazıya çevirme
Üçüncü model GPT-Realtime-Whisper. Bu model canlı konuşmayı metne çeviriyor. Yani: konuşurken yazı oluşturuyor, akış halinde transkripsiyon yapıyor.
OpenAI’nin genel hedefi artık sadece “konuşan asistan” değil. Şirket, bu modelleri şöyle tanımlıyor:
-
dinleyen
-
anlayan
-
çeviren
-
yazıya döken
-
işlem yapan
bir sistem yapısı. Örnek kullanım da var: Zillow benzeri sistemler, sesli komutla ev arayıp filtreleme yapabiliyor ve randevu ayarlayabiliyor.