Car-tech

Konuşma Tanıma Sistemlerinin Daha Akıllı Olması gerektiğini Söyledi, Profesör

Prof. Dr. Ümit Özdağ - 22.06.2020 - Fatih Ertürk ile Günün Raporu

Prof. Dr. Ümit Özdağ - 22.06.2020 - Fatih Ertürk ile Günün Raporu
Anonim

Telefonda otomatik konuşma tanıma sistemlerine konuşmak, bilim adamlarının bu tür sistemleri daha gerçekçi ve kullanımı daha az rahatsız edici hale getirmek için çalıştıkları gerçeğinde teselli edebilir.

"Tüketici deneyimlerinden, insanlar bu sistemleri çok sinir bozucu buluyor," diyor James University of Rochester'da bilgisayar bilimi başkanı olan Allen, bu hafta New York'ta düzenlenen SpeechTEK konferansından önce konuştu.

Çoğu bilgisayarlı konuşma tanıma sistemi, bir insanın zamanın yüzde 98'ine kadar ne söylediğini anlayabilir. ve yine de insanlar otomatik telefon yardım masası sistemlerini kullanmakta zorlanıyorlar. Bu sistemleri daha az sinir bozucu hale getirmenin anahtarı onlara daha derin bir dil anlayışı ve daha etkileşimli hale getirilmesiyle olacaktır, dedi Allen.

[Ek okuma: Yeni PC'niz bu 15 ücretsiz, mükemmel programa ihtiyaç duyuyor]

Şimdiye kadar, çoğu büyük kuruluşun müşteri hizmetleri departmanları, otomatik telefon tabanlı yardım sistemleri sunmaktadır. Bir kullanıcı yardım numarasını arar ve yapay bir ses arayan kişiye bir dizi soru sorar. Bu sistemlerin çoğu, temel olarak büyük karar ağaçları olan çerçevelere dayanmaktadır. Bu tür sistemlerle "kişinin ne istediğini öğrenemiyorsun, sen bir senaryo izliyorsun" dedi.

Sistemler aslında bir dizi farklı teknolojinin bir bileşimi. Bunlardan biri konuşma tanıma veya bir bilgisayarın anlayabileceği veya metne başarılı bir şekilde tercüme edebilme yeteneğidir, konuşmacının söylediği şeydir.

Diğer teknoloji, doğal dil işleme (NLP), konuşmacının mesajını bir komuta dönüştürme girişiminde bulunur. bilgisayarın çalışabileceği veya bir insan operatör için özetlenebileceği.

Son birkaç on yılda hem ses tanımada hem de NLP'de büyük adımlar atıldı, ama görünüşe göre kullanıcılarına büyük bir hayal kırıklığı getirdiler. “Ben sadece bir sorunum olduğunda ve bu sistemlerle savaştığımda bankayı ararım. [Ben bir kişiye mümkün olduğu kadar çabuk ulaşabilmem için ne cevaplayabileceğimi soruyorum” dedi Allen.

Allen'ın akademik araştırma çalışmaları “Bir insanla konuşabileceğimiz bir makineyle aynı şekilde konuşabiliriz” şeklindeki yolları bularak, “

İki kişi arasındaki konuşmalar, bilgisayarların eşleştirmede zorluk çekmesi açısından kesin olabilir. Allen, bir lisansüstü öğrencisi olarak yaptığı bazı erken çalışmalara işaret etti, burada bir tren istasyonu bilgi masasında konuşmaları kaydetti. Bir etkileşimde, bir yolcu kabine doğru yürür ve "Windsor'a 8:50" diyor ve katılımcı "Cevap 10, 20 dakika geç" diyor. Görevli, araştırmacının aradığı bilgileri tam olarak biliyor olsa da, bilgisayarlı sistemler, yolcunun ilk ifadesinin yalvaracağını bulurdu.

Allen'ın gördüğü gibi, modern sistemlerden iki öğe eksiktir: Konuşmacının söylediklerini analiz etme yeteneği ve Konuşmacı ile söyleşmek istediği hakkında daha fazla bilgi edinmek için konuşmacıyla konuşabilme yeteneği.

"Hazırlıksız NLP çok sığ olma eğilimindedir. Size cümlelerin bir anlamını veren teknolojiye sahip değiliz." dedi. WordNet gibi istatistiksel işlem araçları ve kelime tanımlama hizmeti, bir sözcüğün değil, aynı zamanda bir sözcüğün ilişkilerinin tanımlanmasına yardımcı olabilir, böylece bir sistem, örneğin bir "iştiraki" nin "şirket" in bir parçası olduğunu bilecektir.

Daha Kullanıcılar ve bilgisayarlar arasında iki yönlü iletişim de gereklidir. İhtiyaçları hakkında konuşurken, insanlar belirli bir sırayla bilgi sunabilirler. Bu bilgiyi bir araya getirmek ve kullanıcıya, daha önce cevapları verilen sorularla yükümlü olmamak gerekir.

"Bu gelecek, bu gerçekten sistemlerin yapmasını istediğiniz şeydir ve iletişim kurabilir miyiz? Bu karmaşıklığı destekleyebilen sistemler "dedi.

Bu düşünceyi göstermek için Allen ve bir araştırmacı ekibi, bir hemşirenin kalp hastalığı olan bir hastaya sorduğu soruları taklit edebilecek bir program tasarladı. Program, ABD Ulusal Sağlık Enstitüleri tarafından finanse edildi. Bu sistemle, bir kullanıcı bilgi sağladığında, sistem tekrar sormazdı, dedi Allen. Sistem, hangi malzemenin sağlandığı ve neyin hala gerekli olduğu konusunda mantıklı olurdu.

Allen ve ekibi tarafından tasarlanan ve Plough adı verilen bir başka program, bilgisayardaki ortak görevleri nasıl yerine getireceğini öğrenebilir. "Bu, sisteminizi sizin için nasıl yapılacağını eğitmek için iletişim kutusunu kullanmanıza izin veren bir sistemdir" dedi.

Bir örnek olarak Allen, programın bir tarayıcı kullanarak yakındaki restoranları nasıl bulacağını öğrenmesini sağladı. Kullanıcı bir tarayıcı açacak, bir restoran bulucu sitesine gidip, aranan restoranın tipini ve yeri yazacak ve daha sonra sonuçları boş bir sayfaya yapıştırıp yapıştıracaktır. Kullanıcı, gerçekleştirildiği gibi her adımı açıkladı.

Bu süreçte, Pulluk her adımı kaydeder ve adım anlaşıldığında sesli yanıt verir. Daha sonra, kullanıcı başka bir restorana bakmak istediğinde, program aynı hareketlerden geçerek restoranların başka bir listesini otomatik olarak üretecektir. ABD Savunma İleri Araştırma Projeleri Ajansı bu programın geliştirilmesini finanse etti.

Daha fazla veri, insan benzeri bir dil işleme sistemi için önemli bir konuydu, konferansta konuşan başka bir konuşmada, konuşmayı yapan Microsoft baş bilim adamı Larry Heck. “Verilere sahip değilseniz, algoritmalarınızın ne kadar karmaşık olduğu önemli değil” dedi.

Daha fazla veri bulmak için bir yer arama motoru sorgularında yer alacaktı. Arama motoru hizmetleri, her biri yanıtlarla bağlantılı olan çok sayıda sorguyu alır. "Aramayı dil işleme teknolojisine yakın bir kuzen olarak görüyorum" dedi.

Bu günlerde, insanlar sorgularını bir dizi anahtar kelime olarak yapılandırmak için eğitildiler. Bunun yerine, kullanıcılar neye ihtiyaç duyduklarını açıklayan tam cümleler yazacaklarsa, sonuçta ortaya çıkan veri seti, sistemlerin insanların aradıklarını daha iyi anlamalarına yardımcı olmak için çok uzun bir yol kat edebilirdi.

Heck, daha fazla kişinin sesli olarak etkinleştirilen arama hizmetlerini kullandığını tahmin etti. Microsoft ve Google'dan, sorgularını tam cümleler olarak yapılandırmaya daha alışkın olacaklar, bu da zaman içinde NLP sistemlerinin kullanıcı ihtiyaçlarını daha iyi tahmin etmesine yardımcı olabilir.

Joab Jackson, kurumsal yazılımları ve genel teknoloji haberlerini IDG News için Hizmet. @Joab_Jackson'da Twitter'dan Joab'ı takip edin. Joab'ın e-posta adresi [email protected]