Artık kimse ayırt edemiyor: Yapay zekâ sesler, insan sesinden farksız mı?

Yapay zekâ tarafından üretilen yani "deepfake" seslerin, gerçek insan seslerinden ayırt edilemez hale geldiği bilimsel bir araştırmayla kanıtlandı. Ortalama bir dinleyici, klonlanmış yapay seslerin gerçek olup olmadığını artık anlayamıyor.

Çoğumuz, Siri veya Alexa gibi kişisel asistanlar aracılığıyla yapay zekâ sesleriyle karşılaştık ve onların mekanik, tonlamasız yapıları sayesinde gerçek bir insan sesiyle yapay bir sesi kolayca ayırt edebileceğimizi düşündük. Ancak bilim insanları, ortalama bir dinleyicinin artık gerçek insanlar ve "deepfake" (sahte) sesler arasındaki farkı söyleyemediğini belirtiyor.

PLoS One dergisinde 24 Eylül'de yayımlanan yeni bir çalışmada, araştırmacılar insanların, gerçek insan seslerini ve bu seslerin yapay zeka tarafından üretilmiş klonlanmış versiyonlarını dinlediklerinde, hangisinin gerçek hangisinin sahte olduğunu doğru bir şekilde tespit edemediklerini ortaya koydu. Queen Mary Londra Üniversitesi'nden kıdemli psikoloji okutmanı ve çalışmanın başyazarı Nadine Lavan, "Yapay zeka tarafından üretilen sesler artık her yanımızda. Ancak doğal, insan sesine benzeyen konuşmalar üreten yapay zeka teknolojisi sadece an meselesiydi," diyor.

Gerçek ve yapay sesler arasındaki çizgi siliniyor

Araştırma, sıfırdan oluşturulan jenerik yapay zeka seslerinin hâlâ gerçekçi bulunmadığını gösterirken, gerçek insanların sesleri üzerinde eğitilmiş klonlanmış seslerinin ise tıpkı orijinal sesler kadar inandırıcı olduğunu gösteriyor. Çalışmaya katılanlara, 80 farklı ses örneği (40 yapay zeka ve 40 gerçek insan sesi) dinletildi. Sıfırdan üretilen yapay zeka seslerinin yalnızca %41'i yanlışlıkla insan sesi olarak sınıflandırıldı; bu da bu tür sesleri hâlâ ayırt etme yeteneğimizin olduğunu gösteriyor. Ancak, gerçek insan seslerinden klonlanan YZ seslerinin büyük bir kısmı (%58) insan sesi olarak yanlış sınıflandırıldı.

Araştırmacılar, gerçek insan seslerinin ise sadece biraz daha yüksek bir oranda (%62) doğru tanımlanabildiğini belirterek, gerçek kişilerle onların deepfake klonlarını ayırt etme yeteneğimiz arasında istatistiksel bir fark olmadığı sonucuna vardı.

Sahte seslerin yükselen tehlikesi

Lavan'a göre bu sonuçlar, etik, telif hakkı ve güvenlik açısından ciddi sonuçlar doğurma potansiyeli taşıyor. Eğer suçlular sesinizi klonlamak için yapay zeka kullanırsa, bankacılıkta kullanılan ses tanıma protokollerini aşmak veya sevdiklerinizi para transfer etmeleri için ikna etmek çok daha kolay hale geliyor. Gerçeğe yakın yapay zeka sesleri, politikacılar veya ünlülerle ilgili sahte demeçler veya röportajlar oluşturmak için, bireyleri itibar kaybına uğratmak veya toplumsal huzursuzluğu kışkırtmak amacıyla kullanılabilir. 

Araştırmacılar, bu çalışmada kullanılan ses klonlarının bile özel bir teknoloji gerektirmediğini vurguladı. Ticari olarak erişilebilen yazılımlarla ve yalnızca dört dakikalık insan konuşma kaydıyla eğitilmişler. Lavan, "Süreç minimal uzmanlık, sadece birkaç dakikalık ses kaydı ve neredeyse hiç para gerektirmiyordu. Bu da YZ ses teknolojisinin ne kadar erişilebilir ve gelişmiş hale geldiğini gösteriyor," diyor.

Deepfake'ler kötü niyetli aktörler için pek çok fırsat sunsa da, her şey kötü değil. Yapay zeka seslerini büyük ölçekte üretme gücü, erişilebilirlik, eğitim ve iletişim gibi alanlarda kullanıcı deneyimini iyileştirebilecek olumlu uygulamalar da getirebilir.

Sonraki Haber

Forum