OpenAI gerçek zamanlı ses için 3 yeni model duyurdu

OpenAI, API tarafında üç yeni ses modelini kullanıma açtı. Amaç, geliştiricilerin gerçek zamanlı sesli uygulamalar kurmasını kolaylaştırmak. Yeni sistemler; konuşma, çeviri ve ses yazıya dökme işlerini ayrı ayrı ele alıyor.

Modellerin adı: GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper.

Şirket, bu hamleyi “sesli etkileşimi günlük yazılım kullanımına daha yakın hale getirme” hedefiyle açıklıyor.

Sesli yapay zekada yeni dönem

OpenAI, sesin artık yazıdan daha doğal bir etkileşim yolu haline geldiğini söylüyor. Bu modeller de buna göre tasarlandı.

Hedef kullanım senaryoları net:

araba kullanırken sesli komutlar
havaalanında yön bulma
müşteri hizmetleriyle yazmadan iletişim kurma

Yani sistem, ekran yerine konuşmaya odaklanıyor.

GPT-Realtime-2: En güçlü model

Yeni serinin ana modeli GPT-Realtime-2.

OpenAI bu modeli, “GPT-5 seviyesinde mantık kurabilen ilk ses modeli” olarak tanımlıyor. Model şunları yapabiliyor:

karmaşık soruları daha iyi çözme
konuşma sırasında bölünmelere uyum sağlama
sohbeti koparmadan devam ettirme
araç kullanımı ve canlı işlem

Model, konuşma sırasında dış araçlara bağlanabiliyor. Örneğin:

takvime bakabiliyor
arama yapabiliyor
sistem içi verilere ulaşabiliyor

Bunu yaparken kullanıcıya da açıklama veriyor: “takviminize bakıyorum” gibi.

Daha uzun konuşma hafızası

Bağlam penceresi 32K’dan 128K’ya çıkarıldı. Bu da:

daha uzun sohbet
daha fazla veri
daha az kopma

anlamına geliyor.

Teknik iyileştirmeler

OpenAI bazı performans verileri de paylaştı:

Big Bench Audio testinde %15,2 daha iyi sonuç
talimat takip testlerinde %13,8 artış

Ayrıca model:

hata sonrası daha iyi toparlanıyor

tıp ve özel alan terimlerini daha iyi anlıyor

Rekabet: Google Gemini Live

OpenAI bu alanda doğrudan Google Gemini Live ile rekabet ediyor.

Google tarafı genelde: daha hızlı yanıt ve daha geniş dil desteği sunuyor. OpenAI ise farklı bir noktaya oynuyor:

daha doğal sohbet akışı
uzun konuşmalarda kopmama
konuşma sırasında işlem yapabilme

Yani hızdan çok “konuşma hissi”ne odaklanıyor.

GPT-Realtime-Translate: Canlı çeviri

İkinci model GPT-Realtime-Translate. Bu model konuşmayı anlık çeviriyor:

70’ten fazla dili alıyor
13 dile anında çeviriyor
konuşma hızını bozmuyor
kullanım alanı
müşteri hizmetleri
seyahat
çok dilli iletişim sistemleri

Örnek olarak Deutsche Telekom, bu sistemi müşteri destek hatlarına entegre etmeye hazırlanıyor. Kullanıcı kendi dilinde konuşuyor, sistem anında çeviriyor.

GPT-Realtime-Whisper: Konuşmayı yazıya çevirme

Üçüncü model GPT-Realtime-Whisper. Bu model canlı konuşmayı metne çeviriyor. Yani: konuşurken yazı oluşturuyor, akış halinde transkripsiyon yapıyor.

OpenAI’nin genel hedefi artık sadece “konuşan asistan” değil. Şirket, bu modelleri şöyle tanımlıyor:

dinleyen
anlayan
çeviren
yazıya döken
işlem yapan

bir sistem yapısı. Örnek kullanım da var: Zillow benzeri sistemler, sesli komutla ev arayıp filtreleme yapabiliyor ve randevu ayarlayabiliyor.