| MERAKLISINA Ses Tanıma İlkes Bilgisayarla Konuşmak.. Voicetype ve Dragon Dictate gibi IBM ürünleri, konuşulan sözcük ve cümleleri PC için anlaşılır kılmak üzere programlanmış. Chip bu ses tanıma programlarının çalışma ilkesini açıklıyor. Bilgisayar tarafından insan sesinin lanın ması birçok uygulama ya olanak sağlıyor: Modern makinelerin kullanılması, PC'nin u-zaktan kumanda edilmesi, mektup yazdırma vs, gibi. PCde kullanılmak üzen: hasırlanmış ürünle! Mİcro-sofı'un küçük bil kelime hazinesine sahip çözümü Sound System ile konuşmacıdan bağımsız olan Specch-pöWûr üzerinden Dragon Dİclate gibi yazdırma sistemlerine kadar uzanı-vüi . IBM'in yem PC işletim sistemi sürümünün OS/2 Warp -î (kod adı: Merim) içine ses tanıma yerleştirilin ı.ş bulunuyor. VU'rlin için farklı bir şekÖde ses modülü entegre edilmiş ve Windows 95 için Voicetype 3.0 o larak saim alınabilmekle. IBM Tarafından öngörülen minimum sistem gereksinimleri lf> Megabyte anabel-leö - dıip hır Pentium PC ve ses karlı. Kullanılacak mikrofon ise, diğer lininlerde de olduğu gibi kaliteli olmalı, çünkü yazdırma için ses girişinin yapılacağı malzemenin kaliteli olması gerekiyor lek rek sözcüklerin Çoğunlukla komutların) tanınması için ünlü hir örnekse firmalardaki telefon-konuş ma bilgisayarı. Bunlar klasik bir tele- fon sanirali olmaksızın müşterileri islenen bölüme bağlıyor. Bu lip konuşma bilgisayarları için bilgi teknolojisi açısından harcanan zahmet ÇOK büyük değil, çünkü bu programların kelime hazinesi birkaç düzine sözcükle kısıtlı. Buna karşm yazdırma sisiemlcri, Ses tanımanın yüksek derecede gelişkin bir biçimi. Ama bunlarda yalnızca rek tek konuşulan sözcüklerle yelerince memnun t'dici bir tarzda çalışıyor, çünkü aksı takdirde sistemin, konuşmanın akışını lek lek sözcük-ler halinde yeniden yapılandırması ı çin her sözcük grubunun bağlamı hakkında kapsamlı bilgilere sahip olması gerekecekıi. Örneğin Voicetype iki sözcük arasında en az 100 milısa-niyelik bir aralık verilmesini [alep e- dİyor. Tabii bu dununa alışmak gerekiyor. SES TANIMA ALGORİTMALARI Konuşulan dilin en kşçük birimi 10 ila 'f0 milisaniye arasında hır süre tutan Fonem, bir sözcük normal olarak birçok fonemden oluşuyor. Ses lanı-manın ilk adımında yaklaşık her 10 milisaniyede bir hourıer Transformasyon yardımıyla akustik kısa zaman frekans spekırıımu üretiliyor, Bu dijital sinyal dönüştürme, bir frekans yoğunluk diyagramı sonucu veriyor. Bu diyagramın frekans Çizgileri nümerik vektörler biçiminde tek lip bale getiriliyor ve sistemin örnek ya da referans vekıoıleriylc karşjlay-lırılıyor. Karşdaşluma hesap yoğunluğu çok yüksek bir işlem ve bu yüz- 76 • CHLF OCAK 1997 Ic yüksek derecede optimize e-luıiş olması gerekiyor. Bu atanda kruılini kabul ettirmiş uç yöntem var: Dinilin i k programlama, 11 idden-Markov modelleri yardımıyla göste-ri m ve yanay zeka. Dinamik programlamada kısa zaili .veklörlcrİylc örnek vektörler a-lUMiıdaki karşılaştırma sürekli yinelenen (Rekursiv) bir aigoriuna vasıtasıyla gerçekleştiriliyor. Hu karşılaş-nnn.ı prosedürünün kendi kendini yeni ve daha iyi parametrelerle çağırması^ anlamına geliyor. Burada hedef Iw7i.t11y.lv verileriyle en iyi uyumu Sağlayan referans örneğini bulmak. llİdden-Markov modelleriyle uııu-önıerni bir fonemden diğerine geçiş olası hldarmı hesaplıyor. Ge-ıvl-.b olan model sınışarının u reli ini 1 1 listemin bir alıştırma aşamasından geçmesi gerekiyor. Tanıma aşamasında tanınacak ör nekten Öğrenilmiş model sınışarı v.udıımyla en büyük oluşturma olasılımı belirleniyor. H idden-Markov i-çin harcanan hesaplama zahmeti çok yüksek, kelimenin uzunluğuna güre (iylst'l olarak anıyor. Bu yüzden pra-. bu yöntemin kısaltılmış ve opti mfze edilmiş biçimleri uygulama ala 111 buluyor. Sinirsel ağlar (yapay zeka) vasata-sn la iantıııa, do£yıl sinir hücrelerinin nöronların) işlevlerine benzetilmiş. in .eka'nın model lenmesi kaba Inıtiarıyia söyle gerçekleşiyor: Bir gi Fnegi - ki bu ses tanıma amacına yönelik olarak bir sözcüğün vektör lnı sinirsel ağın giriş tabakası üzerine yerleştiriliyor. Daha sonra da çıkış tabakası üze-r inde sözcüğün kendisi için geçerli örnek bulunuyor. Giriş ve çıkış taba kabıı 1 arasında birçok gizli ara tabaka (¦iriş Tabakasından itibaren her nörondan" bir sonraki tabakanın diğer "nöronlarına'' i-hsjkin ağırlıklar bulunu ydı Ağın alıştırma aşa-rnası sırasında bu ağırlıklar alıştırması yapılan giriş örneğine istinaden kaydırılıyor. Bu "puslu mımiık" çalışma ması -ırasında benzerlikleri teshil etmek 1- 0 - -1 19?/ IBM Voicetype'da ses tanıma akış diagramı K:r.".,t;ı.ıl;.-, ¦> ^tııtnı yiinsHYfcı Metnin Oütunu Trcramm Hiigı Prototip* BtoKik eeoıbolltria MoçBtder -../.-- .Vi:. CFKçrotV nİı çin uygun bit ataç Ve aynı zamanda yazı (anıma (OCR) alanında da kullanılıyor. IBM VOİCETYPE IBM Voicerype şu şekilde çalışıyor (üstteki resim): Konuşmanın akışı fonemlerden ibaret bir sembol akışına ayrıştırılıyor. Asıl ses dekoderi üç basamaklı. İlk basamakta > hızlı akus-tik model) Hiılden-Markov modeliyle doğru Sözcük itin en büyük olasılığa sahip sözcükler seçiliyur. Aday sözcüklerin sayısı 130 civarında oluyor Her fonem için bir Markov modeli var. ikinci basamakta (dil modeli) a-daylarm sayısı 10 ila 20 arasında bir rakamla sınırlandırılıyor. Tayin edici olan sözcüğün diğer i-ki sözcükle birlikte hangi yazılış biçiınin-ft de en fazla ' ortaya çıklı-* gı. Bu bağlam kontrolü ir i gram m Tekniği" adını alrvor ve henzer tınıya sahip sözcüklerin de güvenli bir biçimde birbirinden ayrılmasına izin veriyor. Burada kullanım sıra sında "Cache Language ModtT'dc yeni öğrenilmiş sözcükler ve onların Tuğramın istatistikleri İle dolu bir vcritabanı depolanıyor. Üçüncü basamakta (ayrıntılı akustik model) geriye kalan sözcük adayları bir tur lavonler listesi şeklinde düzenleniyor. Bu iş için kullanılan seçim yöntemi hızlı modeldekîne benziyor, ancak tek fark var: Karşılaştırma malzemesi olarak fonem yazısı yerine fonemler içiu sembol akışı kullanılması. Favoriler listesinde birinci sırada bulunan sözcük yeniden ilk basamağa gönderiliyor ve böylelikle ikinci bir kez dekoder zincirinden geçiyor. Voiceiype'm ana kelime hazinesi 30000 sözcük biçimini kapsıyor ve kullanıcı tarafından tanımlanmış 34000 sözcükle genişletilebiliyor. Kullanıcının konuşma tarzına yöne lik olarak gerçekleştirilen iki saailik bir alıştırma aşamasından sonra ortaya çıkan tanıma oranı performansı yaklaşık %9*5. H J.K'mn yağısından (eviren Gara AntikaciOğlu CHIP - 77 |
Cep telefonları |
Ekran kartları |
Masaüstü |
Notebook |
Ses kartları |
Webcam |
Klavye & Fare |
Yazıcılar |
Tablet
Ev Sineması
Mp3 Player | Usb Bellekler | Video kameralar | Fotoğraf Makinesi | Taşınabilir diskler | LED & LCD Tv | Monitörler | OEM | PDA
Navigasyon | Oyun Konsolu

