發(fā)布時間 : 2010-09-02 14:16:18 來源 : 金站網(wǎng) 瀏覽次數(shù) :
領(lǐng)導(dǎo)Google的語音技術(shù)開發(fā)與產(chǎn)品應(yīng)用的Mike Cohen,最近接受本站專訪時表示:“Google的使命是整理全世界的資訊,問題是,許多資訊都是用說的。”
Google要開發(fā)出適用行動運(yùn)算和網(wǎng)路應(yīng)用軟體的語音辨識技術(shù)。也就是,將重度運(yùn)算交給資料中心,又能在硬體配備有限之網(wǎng)際網(wǎng)路和行動裝置上執(zhí)行的簡單、好用的軟體。
電腦語音辨識已存在將近百年(1911年上市的Radio Rex玩具狗即可回應(yīng)唿叫),但一直無法達(dá)到科幻電影中那種精細(xì)、靈敏和準(zhǔn)確的程度。然而,Cohen相信,業(yè)界即將實(shí)現(xiàn)重大的突破。他說:“我們的目標(biāo)是完全普及的語音輸入和輸出,任何可行的地方,我們都要提供非常優(yōu)良的(語音辨識)。”
聽到你的聲音
2004年加入Google的Cohen,已在這個領(lǐng)域耕耘26年。他在Google的主要工作,是將先進(jìn)的語音辨識和合成技術(shù),應(yīng)用到Google的各種服務(wù)上。
Cohen表示,目前主要的語音技術(shù)系統(tǒng)大都已確立其基本架構(gòu)。第一步是收到的聲波分成每10毫秒一組、辨識其聲音屬性(抑揚(yáng)頓錯)上的微妙差異,制作出那些聲音的數(shù)位呈現(xiàn)。接下來是困難的部份,將這些聲音組對應(yīng)英語中數(shù)十億組聲音組合。(其他語言的程序相同,但對應(yīng)組的數(shù)量各不相同。)
Cohen說:“這基本上就是一個大的統(tǒng)計(jì)模型。”Google的方法是分析聲音的音質(zhì),辨識出其“音素”(phoneme),這些音素如何組成個別的字,和文法如何將那些字構(gòu)成句子?;镜姆椒ǜ骷夜敬蠖枷嗤獵ohen自然認(rèn)為Google有獨(dú)特的優(yōu)勢。
時間和資料
語音辨識是一個極度運(yùn)算密集的挑戰(zhàn),即使簡單的語音指令,都需要許多運(yùn)算資源來解讀。所幸,Google已累積了大量有關(guān)全球使用者的搜尋模式資料,和透過其書籍搜尋計(jì)畫所數(shù)位化的上千萬本圖文內(nèi)容。這些資料都能用在語音辨識的處理。
因此,Cohen認(rèn)為,Google能在更快的時間內(nèi)提供更準(zhǔn)確的結(jié)果,因?yàn)樗麄冇心芰ο嫶蟮男沦Y料,并與較舊的資料進(jìn)行比對。Google的最新成果展現(xiàn)在其Android行動作業(yè)系統(tǒng),使用者只要按下一個麥克風(fēng)鍵,即可用聲音搜尋網(wǎng)路,或啟動特定應(yīng)用程式。
聲音障礙
然而,多數(shù)人都同意,現(xiàn)在仍沒有一家公司能提供真正可靠的語音辨識技術(shù)。問題究竟是什么?
Cohen表示,眼前最根本的問題是背景噪音。行動使用者經(jīng)常因?yàn)轱L(fēng)聲、背景對話或車輛噪音,影響辨識系統(tǒng)的聲音接收。改善麥克風(fēng)或許有助,但系統(tǒng)必須加強(qiáng)處理這類干擾的能力。另一個主要問題是預(yù)期使用者會說什么字,并準(zhǔn)確地合成句子,所涉及的復(fù)雜度。這不只是腔調(diào)和方言的問題,還有昵稱、俚語和口齒不清、句子不完整等情況,都會混淆最聰明的系統(tǒng)。
用語音搜尋的人通常會自動說出關(guān)鍵字或關(guān)鍵句,如“臺北東區(qū)的餐廳”,這在預(yù)測和交叉比對上都相當(dāng)有幫助。但語音郵件則完全無法預(yù)測,尤其是基于隱私保護(hù),Google沒有保留這部份的資料庫。
盡管還有許多挑戰(zhàn),不論內(nèi)外,人們都開始期待Google的語音技術(shù)將實(shí)現(xiàn)長久以來的幻想。改變長期的輸入習(xí)慣需要一些時間,但我們已經(jīng)看到有些人拋棄以往的電腦輸入方式(鼠標(biāo)和鍵盤),開始擁抱觸控和語音輸入。Cohen說:“我們不是要消滅既有的輸入方法,而是提供另一種選擇。”