自然語(yǔ)言技術(shù)的未來(lái),其關(guān)鍵點(diǎn)是'自然'兩個(gè)字。
11月最后一天,思必馳聯(lián)合創(chuàng)始人、首席科學(xué)家俞凱博士在清華x-lab主辦的人工智能研習(xí)社第七課上,如此評(píng)價(jià)自然語(yǔ)言處理,并與現(xiàn)場(chǎng)聽(tīng)眾一起暢想了這一潛力巨大的技術(shù)將走向哪里。
思必馳聯(lián)合創(chuàng)始人俞凱在清華演講
在這場(chǎng)題為《認(rèn)知型口語(yǔ)對(duì)話(huà)智能》的講座上,俞凱認(rèn)為認(rèn)知交互面臨的最主要的挑戰(zhàn)一定不是語(yǔ)音,因?yàn)閺?a href="http://www.brongaenegriffin.com/tags/語(yǔ)音識(shí)別/" target="_blank">語(yǔ)音識(shí)別的角度上來(lái)說(shuō),問(wèn)題明確,只要專(zhuān)門(mén)向這個(gè)領(lǐng)域去做,絕大部分都可以?xún)?yōu)化的很好。
他認(rèn)為其最大的挑戰(zhàn)還是對(duì)話(huà)的過(guò)程,例如針對(duì)抑郁癥患者治療的這類(lèi)場(chǎng)景,語(yǔ)音對(duì)話(huà)更像是有目的的聊天,如果沒(méi)有很強(qiáng)的數(shù)學(xué)背景在后面做支持,是很難的,只有在一個(gè)垂直領(lǐng)域積累更多的數(shù)據(jù),才能做得更好。
大數(shù)據(jù)文摘整理的俞凱博士本次講座內(nèi)容如下,在不改變?cè)獾那疤嵯掠袆h改:
今天的題目叫認(rèn)知型口語(yǔ)對(duì)話(huà)智能,核心點(diǎn)是兩個(gè)字:“對(duì)話(huà)”。
這兩個(gè)字不單單包含語(yǔ)音,還包含語(yǔ)言。從人機(jī)變遷講起來(lái),我在清華待了八年時(shí)間,在這八年當(dāng)中,我們經(jīng)歷了人和機(jī)器在不同時(shí)代交互的幾個(gè)變遷。
我們?yōu)槭裁撮_(kāi)始關(guān)心口語(yǔ)對(duì)話(huà)智能
今天第一個(gè)要講的問(wèn)題,就是我們?yōu)槭裁撮_(kāi)始關(guān)心口語(yǔ)對(duì)話(huà)智能。
剛開(kāi)始的時(shí)候我們使用的是Windows圖形交互界面,通過(guò)機(jī)器圖形交互界面使得人和信息可以進(jìn)行交流,我們奇跡般的看到了打印出來(lái)很工整的排版。而到了現(xiàn)在,在2011年開(kāi)始,手機(jī)變成智能手機(jī),使用開(kāi)始變的非常廣泛,這個(gè)時(shí)代自然的語(yǔ)言(手動(dòng)輸入、語(yǔ)音)逐漸形成了我們現(xiàn)在的交互手段。再往后我們發(fā)現(xiàn)通過(guò)口語(yǔ)溝通是未來(lái)智能信息獲取最核心的東西,而移動(dòng)互聯(lián)網(wǎng)的時(shí)代,最關(guān)鍵的是這一類(lèi)溝通產(chǎn)生了一種新的模式,那就是交互。
講座現(xiàn)場(chǎng)圖
在上世紀(jì)出現(xiàn)Google、百度等搜索引擎的時(shí)候,交互還是單向的,但出現(xiàn)智能手機(jī)之后我們的交互變成了雙向。比如蘋(píng)果的交互史,在剛開(kāi)始做出來(lái)第一代iPhone的時(shí)候并沒(méi)有語(yǔ)音交互的能力,但經(jīng)過(guò)市場(chǎng)調(diào)研之后發(fā)現(xiàn)有75%的用戶(hù)都希望有語(yǔ)音控制。于是,在后面兩代iPhone加入了語(yǔ)音控制,但到后面發(fā)現(xiàn)實(shí)際使用的用戶(hù)竟然不到5%,蘋(píng)果經(jīng)過(guò)總結(jié)之后發(fā)現(xiàn)不僅僅是語(yǔ)音,還必須有自然語(yǔ)言交互。于是在iPhone4S上面出現(xiàn)了Siri,再次經(jīng)過(guò)市場(chǎng)調(diào)研之后發(fā)現(xiàn),大概有87%的用戶(hù)至少在一個(gè)月會(huì)使用一次Siri。
而且,他們還發(fā)現(xiàn)了一件事情,這87%的用戶(hù)使用Siri的時(shí)候基本上都是在調(diào)戲Siri,并不做其它的事情,這導(dǎo)致蘋(píng)果并不能賺到錢(qián)。這也促使了蘋(píng)果在2015年收購(gòu)了一家做統(tǒng)計(jì)對(duì)話(huà)交互的公司VocalIQ,這會(huì)讓技術(shù)語(yǔ)音識(shí)別和語(yǔ)義連在一起形成完整的閉環(huán),Siri就可以為我們提供新的功能了。
講座現(xiàn)場(chǎng)圖
現(xiàn)如今大家都說(shuō)是互聯(lián)網(wǎng)時(shí)代,那么如今的信息發(fā)展到什么程度了呢?有一個(gè)統(tǒng)計(jì)顯示,到2017年年底,全世界物聯(lián)網(wǎng)智能設(shè)備的總數(shù)將首次超過(guò)人類(lèi)總數(shù)。而且這些智能設(shè)備絕大部分是沒(méi)有或者擁有很小的屏幕,并沒(méi)有辦法進(jìn)行很復(fù)雜的操作,這些設(shè)備如果想要去訪問(wèn)最核心抽象復(fù)雜的信息,只能是語(yǔ)音或者對(duì)話(huà)的形式。這也是眾多巨頭從2014年的音箱開(kāi)始,推出一系列智能音箱的原因。從技術(shù)上講,這件事情不僅僅是要解決框架的問(wèn)題,還包括了對(duì)話(huà)管理、識(shí)別、合成以及我們的理解。
語(yǔ)音識(shí)別存在的問(wèn)題和機(jī)遇
我們會(huì)碰到什么樣的問(wèn)題,以及在這個(gè)過(guò)程中有多少和我們的應(yīng)用相關(guān)的機(jī)會(huì)。
首先是語(yǔ)音識(shí)別。
語(yǔ)音識(shí)別是感知技術(shù)這一類(lèi)里面前沿的技術(shù),當(dāng)許多人看到語(yǔ)音識(shí)別,第一個(gè)會(huì)想到的問(wèn)題就是語(yǔ)音識(shí)別似乎已經(jīng)被解決了,當(dāng)我們使用一個(gè)包羅萬(wàn)象的語(yǔ)音識(shí)別系統(tǒng)的時(shí)候,我講“疏影橫斜水清淺,暗香浮動(dòng)月黃昏”這樣的東西都可以比較完整的出來(lái)。但盡管采用了深度學(xué)習(xí)的技術(shù),仍然避免不了錯(cuò)誤,它也會(huì)偶爾的有一些語(yǔ)音識(shí)別的錯(cuò)誤出現(xiàn),而我們的任務(wù)就是使得它像人一樣,在有錯(cuò)誤的時(shí)候,完整的去進(jìn)行人機(jī)交互,修正錯(cuò)誤,這需要感知技術(shù)和認(rèn)知技術(shù)相互的幫助來(lái)實(shí)現(xiàn)。
第二是計(jì)算能力。
語(yǔ)音識(shí)別的解決是與計(jì)算能力有關(guān)的,舉一個(gè)例子,剛才我在做演示的時(shí)候,這個(gè)演示的應(yīng)用背后早期使用的深度神經(jīng)網(wǎng)絡(luò),共有7層,每層有2048個(gè)節(jié)點(diǎn),輸入是1320,輸出是將近1萬(wàn),這大概有4500萬(wàn)的參數(shù),在做語(yǔ)音識(shí)別的時(shí)候我們是把每秒鐘的語(yǔ)音切成100份,每一份提取1320個(gè)向量,大家想象我在一秒鐘要讓特征向量經(jīng)過(guò)100次深度神經(jīng)網(wǎng)絡(luò)計(jì)算,之后還要在數(shù)以?xún)|計(jì)節(jié)點(diǎn)的搜索網(wǎng)絡(luò)里再去搜它,所以這個(gè)運(yùn)算是非常非常復(fù)雜的。曾經(jīng)有過(guò)統(tǒng)計(jì),整個(gè)語(yǔ)音識(shí)別會(huì)分成搜索的速度和做神經(jīng)網(wǎng)絡(luò)前向傳遞的速度,這兩個(gè)速度的比例,在傳統(tǒng)系統(tǒng)里面前向傳遞的速度占30%-40%,后面在各種各樣的語(yǔ)言空間搜索的速度大體占60%-70%。所以,在技術(shù)上必須突破速度的問(wèn)題。
現(xiàn)場(chǎng)聽(tīng)眾提問(wèn)
感知智能另外一件事是如何把它做得更小。整個(gè)信息技術(shù)的變化和推進(jìn)一定是和技術(shù)基礎(chǔ)的推進(jìn)有關(guān),性能抗噪能不能達(dá)到90%、能不能在手機(jī)手表上面也做到大詞匯等新的挑戰(zhàn)不斷應(yīng)運(yùn)而生,隨著在智能物聯(lián)網(wǎng)方面我們做出各種各種的優(yōu)化之后,這樣的挑戰(zhàn)開(kāi)始被一個(gè)個(gè)的克服掉。
認(rèn)知這個(gè)事情更加麻煩。人機(jī)對(duì)話(huà)并不是大家想象那樣,對(duì)話(huà)也是分成很多種形態(tài)的,有的可以很好的解決,有的卻毫無(wú)頭緒。如果以不同的輪回次數(shù)來(lái)分類(lèi),大概可以分為下面幾種。第一種是模式最少的,單輪模式,即我說(shuō)一句它回答一句,而且沒(méi)有什么特定的結(jié)構(gòu)化語(yǔ)義,這種情況基本上是命令式的,十分簡(jiǎn)單。復(fù)雜一點(diǎn)的則是問(wèn)答,現(xiàn)在的經(jīng)典深度學(xué)習(xí)技術(shù)很多是用來(lái)解決問(wèn)答這個(gè)問(wèn)題的,因?yàn)閱?wèn)答基本上是一問(wèn)一答,你說(shuō)一句它會(huì)給你一個(gè)答案,偶爾會(huì)帶有一點(diǎn)上下文,這并不是真正意義上多輪的東西。還有一類(lèi)是閑聊,比如微軟小冰,你不停的說(shuō),它就不停的跟你聊天。閑聊的準(zhǔn)則就是以聊得時(shí)間來(lái)定義的,曾經(jīng)有一位用戶(hù),聊了好幾個(gè)小時(shí)依然在繼續(xù)。但這里面是沒(méi)有什么目標(biāo)意義的,所以閑聊要考慮的是如何把一些比較有趣的東西融入進(jìn)去。
但是里面究竟有什么意義,機(jī)器是不會(huì)去關(guān)注的,只要有用戶(hù)黏性跟它一直聊下去,特點(diǎn)是多輪,沒(méi)什么結(jié)構(gòu)化的東西。偶爾會(huì)加一些知識(shí),現(xiàn)在希望把這個(gè)東西融合起來(lái),這是方向,本質(zhì)上沒(méi)有什么結(jié)構(gòu)化的東西。所以閑聊這一類(lèi)事情實(shí)際上更多的是怎么樣能夠把一些比較有趣的東西融進(jìn)去。實(shí)事求是來(lái)講目前還缺乏一套比較扎實(shí)的理論體系,能夠真正在理論上解決掉。
最后一類(lèi)是任務(wù)型的多輪對(duì)話(huà),這類(lèi)對(duì)話(huà)是有比較扎實(shí)的數(shù)學(xué)基礎(chǔ)的,把對(duì)話(huà)看做是一個(gè)序列決策過(guò)程。
這一技術(shù)的三個(gè)層面
如果從認(rèn)知層級(jí)的結(jié)算上來(lái)講,我們會(huì)把認(rèn)知技術(shù)分為三個(gè)層面。
第一種是靜態(tài)層面,我隨便說(shuō)一句話(huà),自然語(yǔ)言能不能理解,能不能映射到正確的意思上面去。
第二類(lèi)是交互決策,意思是我在說(shuō)話(huà)的時(shí)候如何進(jìn)行反饋,比如我對(duì)一個(gè)機(jī)器說(shuō)我要找到餐館,它要明白我想去哪、吃什么。
第三是進(jìn)化,我想要便宜的東西,它卻以為我想要貴的,當(dāng)它發(fā)現(xiàn)錯(cuò)了之后下一次一定要更新自己的反饋策略,進(jìn)化出自己的認(rèn)知。
聊一件和各位相關(guān)的事情:大規(guī)??啥ㄖ茖?duì)話(huà)智能。在講整個(gè)對(duì)話(huà)智能的時(shí)候,我們會(huì)發(fā)現(xiàn)在整個(gè)流程里面,每一個(gè)環(huán)節(jié)都看起來(lái)很美好,但一到專(zhuān)業(yè)領(lǐng)域的環(huán)節(jié)就會(huì)變得不一樣了。比如做對(duì)話(huà)模式,做購(gòu)物的場(chǎng)景與金融、家庭的場(chǎng)景所理解的東西完全不一樣,這個(gè)時(shí)候就要看做出來(lái)的模型是否每一個(gè)場(chǎng)景都能識(shí)別,是否能很好的支持。在細(xì)節(jié)上面,還有很多個(gè)性化需求,例如喚醒。當(dāng)我們喊小樂(lè)給我放一首歌的時(shí)候,這個(gè)小樂(lè)就是一種喚醒。但有的時(shí)候我們希望它有好幾個(gè)名字,這種需要多喚醒詞的需求在未來(lái)會(huì)出現(xiàn)更多。
當(dāng)我們真正去做的時(shí)候,會(huì)希望在我們所使用的口語(yǔ)對(duì)話(huà)系統(tǒng)上的支撐可以定制。而大規(guī)模可定制是我們提出的新概念,在2013年我們發(fā)布了一個(gè)叫“對(duì)話(huà)工場(chǎng)”的平臺(tái),2017年升級(jí)到大規(guī)??啥ㄖ频摹?a href="http://www.brongaenegriffin.com/tags/dialog/" target="_blank">Dialogue User Interface”,DUI,其本質(zhì)上是把圖形界面和語(yǔ)音界面在對(duì)話(huà)交互的框架下結(jié)合在一起。
定制性的語(yǔ)音交互技術(shù)可以做什么?
這時(shí)候,我們會(huì)好奇,這些定制技術(shù)能做什么呢?比如可以在做實(shí)時(shí)語(yǔ)音識(shí)別和大詞匯語(yǔ)音識(shí)別的時(shí)候,做出來(lái)一個(gè)功能,當(dāng)語(yǔ)義改變的時(shí)候,語(yǔ)音識(shí)別會(huì)對(duì)我們自動(dòng)添加的詞做自動(dòng)識(shí)別,比如我們添加了“瀧澤蘿拉”四個(gè)字,語(yǔ)音識(shí)別系統(tǒng)能自動(dòng)把它加入詞表并具有識(shí)別的能力,繼而在實(shí)現(xiàn)理解和交互。
我們想要做一件事情,在一個(gè)車(chē)載的系統(tǒng)里面,自動(dòng)選擇一些聲音添加進(jìn)去,當(dāng)想要林志玲甜甜聲音的時(shí)候,喊一聲林志玲出來(lái),絕對(duì)不會(huì)再出來(lái)郭德綱的聲音,讓它回去它就會(huì)切換為原本的郭德綱聲音。我們希望這樣的事情可以很自由的來(lái)回切換。更進(jìn)一步,我們要支持對(duì)理解和對(duì)話(huà)進(jìn)行相應(yīng)的定制。
在這個(gè)過(guò)程里,在我們真正背后的技術(shù)上來(lái)說(shuō),已經(jīng)不再是一般的語(yǔ)音的和對(duì)話(huà)的交互,不再僅僅是前面我們提到的感知和認(rèn)知的獨(dú)立框架。在這里要解決的問(wèn)題是所謂大規(guī)??啥ㄖ频囊恍┬录夹g(shù)。比如說(shuō)在識(shí)別里,要解決所謂的自適應(yīng)的問(wèn)題。比如說(shuō)話(huà)人和環(huán)境的自適應(yīng)、領(lǐng)域主題的自適應(yīng)等這些東西可以及時(shí)的去改變它,可以使得對(duì)話(huà)有很多的自適應(yīng)。如果實(shí)現(xiàn)這些自適應(yīng)規(guī)?;脑?huà)還需要有相應(yīng)的系統(tǒng)支持。在這個(gè)過(guò)程里需要有具體的技術(shù)拆借、需要有模型定制,能夠使得它規(guī)?;臄U(kuò)展,并且在個(gè)性的基礎(chǔ)之上去進(jìn)行進(jìn)化,這一類(lèi)東西里會(huì)有很多新型的技術(shù)出現(xiàn),但這些技術(shù)都需要技術(shù)基礎(chǔ)的支撐。
-
智能語(yǔ)音
+關(guān)注
關(guān)注
11文章
818瀏覽量
49885 -
自然語(yǔ)言
+關(guān)注
關(guān)注
1文章
292瀏覽量
13840
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論