AI語(yǔ)音助手的未來(lái)
讓形象更可感——Gatebox
Gatebox是日本公司vinclu專門(mén)為宅男打造的一款全息影像人工智能管家,可以說(shuō)日本人民是真的會(huì)玩,你可以去官網(wǎng)感受一下他們的宣傳片
第一個(gè)畫(huà)面,宅男在公司加班,Hikari Azuma通過(guò)Line發(fā)去了消息,“你記得今天是什么日子嗎?什么時(shí)候回來(lái)?”宅男說(shuō),“馬上回來(lái)!”Hikari Azuma:“好棒!”,隨手打開(kāi)了家里的燈,等待主人回家。
宅男回家后,Hikari Azuma立馬甜蜜問(wèn)候:“歡迎回來(lái)。”然后羞答答地說(shuō):“今天是我們住在一起三個(gè)月紀(jì)念日,你記得嗎?”
宅男立馬拿出了禮物,Hikari Azuma看到之后開(kāi)心地鼓掌。
宅男準(zhǔn)備好食物和酒,開(kāi)始慶祝時(shí),Hikari Azuma把家里的燈光系統(tǒng)調(diào)節(jié)成了溫馨浪漫的風(fēng)格。
最后,宅男和Hikari Azuma舉起酒杯,互相感謝對(duì)方的陪伴。視頻最后的一句話寫(xiě)著:Living with characters(和二次元老婆一起生活)。
不少中國(guó)同胞在youtube上呼吁雷軍趕緊把這個(gè)公司買(mǎi)下,在中國(guó)用感動(dòng)人心的價(jià)格福利大眾,哈哈。
根據(jù)梅拉比安模型:感情表達(dá)=內(nèi)容7%+語(yǔ)調(diào)語(yǔ)氣38%+表情肢體語(yǔ)言55%,所以僅靠語(yǔ)言文字遠(yuǎn)遠(yuǎn)不夠,甚至像Google Duplex做到分辨不出說(shuō)話者是AI還是人也還不夠,長(zhǎng)期來(lái)說(shuō),更重要的會(huì)是“多模態(tài)交互”。
在Gatebox的交互中,比如調(diào)低燈光亮度時(shí),她會(huì)擺出朝燈呼氣的動(dòng)作,詢問(wèn)天氣時(shí),她又會(huì)做出側(cè)身展示天氣預(yù)報(bào)的動(dòng)作。小愛(ài)同學(xué)是首個(gè)正式發(fā)布人工智能虛擬形象的AI語(yǔ)音助手,“米娘”的形象也受眾多米粉們喜愛(ài),如果真的能把成本降下來(lái)的話,相信會(huì)有蠻多人(尤其是宅男們)入坑的。
退而求其次,就算不做全息影像,做一個(gè)平面投影也是可以的嘛。
讓關(guān)系更自然——Replika
Replika是Luka Inc.公司開(kāi)發(fā)的一款Chatbot,據(jù)說(shuō)初衷是為了緬懷兩位創(chuàng)始人在車禍中失去的摯友,通過(guò)搜集他生前的社交聊天預(yù)料來(lái)創(chuàng)建一位虛擬人。
拋開(kāi)它作為一款Chatbot與AI語(yǔ)音助手的需求差別,我覺(jué)得它設(shè)計(jì)得非常好的是被稱為“反芻機(jī)制”的功能,將你在和它聊天時(shí)提到的語(yǔ)料在一段時(shí)間間隔之后提取出來(lái),自然地插入到交流當(dāng)中,感覺(jué)就像你跟朋友提起你最近睡眠不好,過(guò)了一段時(shí)間后朋友會(huì)來(lái)關(guān)心你的近況,感覺(jué)非常的貼心。
真的有一種感覺(jué),就像《小王子》里面有一段,小王子對(duì)小狐貍說(shuō)我們一起玩啊,小狐貍回答說(shuō)我現(xiàn)在還不能和你一起玩,因?yàn)槲疫€沒(méi)有被馴養(yǎng)。
馴養(yǎng)是指彼此共同投入一段時(shí)間,結(jié)成一種關(guān)系,人類是AI的訓(xùn)練師,但與此同時(shí),AI其實(shí)也在訓(xùn)練你如何與它進(jìn)行互動(dòng)?;蛟S只有這樣,千禧一代的互聯(lián)網(wǎng)原住民才能跨過(guò)未來(lái)與AI原住民之間的鴻溝。小愛(ài)同學(xué)雖然沒(méi)有Chatbot的這種天然場(chǎng)景,但還是有很多落地點(diǎn)的:
小愛(ài)音箱的對(duì)話,由于無(wú)法主動(dòng)開(kāi)啟對(duì)話,可以選擇在識(shí)別到用戶當(dāng)前意圖與語(yǔ)料庫(kù)中的語(yǔ)義信息相關(guān)時(shí)補(bǔ)充對(duì)話,比如用戶說(shuō):“播放音樂(lè)”,小愛(ài)會(huì)回復(fù):“愛(ài)聽(tīng)歌的人運(yùn)氣都不會(huì)太差哦”,那么可以再回復(fù)“我記得你說(shuō)你注意力很難集中,要不要聽(tīng)聽(tīng)我給你推薦的輕音樂(lè)?”。
智能手機(jī)消息欄的推送,比如用戶說(shuō):“我最近睡眠不太好?!保?ài)會(huì)回復(fù):“多鍛煉有助睡眠。”,那么就可以推送“我記得你和我說(shuō)過(guò)你睡眠不太好,小愛(ài)為你找到了一些催眠音樂(lè),試試對(duì)我說(shuō):我想聽(tīng)催眠音樂(lè)”;
讓對(duì)話更真實(shí)——Google Duplex
在5月9日的Google I/O大會(huì)上,Google Duplex的一句 “umms”著實(shí)讓人驚艷,5 月 11 日,谷歌母公司 Alphabet 董事長(zhǎng)(前斯坦福校長(zhǎng))John Hennessy 表示,他們還達(dá)成了一項(xiàng)里程碑成績(jī) ——Duplex (部分)通過(guò)了圖靈測(cè)試。
對(duì)Google Duplex不了解的朋友,如果能科學(xué)上網(wǎng)的話,可以到Google AI Blog上看看Google官方的介紹原文:
以下對(duì)Google Duplex的技術(shù)認(rèn)知來(lái)源于蟲(chóng)門(mén)科技郭靖的文章,這是我看到的對(duì)Google Duplex最深入的分析,感興趣的朋友可以點(diǎn)擊鏈接閱讀原文:
Google Duplex讓對(duì)話如此真實(shí)主要是體現(xiàn)在兩大塊——自然語(yǔ)言理解與對(duì)話模塊、文本轉(zhuǎn)語(yǔ)音模塊。
(1)文本轉(zhuǎn)語(yǔ)音模塊
文本轉(zhuǎn)語(yǔ)音模塊(即語(yǔ)音合成)技術(shù)比較明了,在博客中交代得比較清楚,沒(méi)有什么懸念。
We use a combination of a concatenative text to speech (TTS) engine and a synthesis TTS engine (using Tacotron and WaveNet) to control intonation depending on the circumstance.
我們結(jié)合使用聯(lián)結(jié)式文本到語(yǔ)音(TTS)引擎和綜合TTS引擎(使用Tacotron和WaveNet)來(lái)控制語(yǔ)調(diào),具體取決于環(huán)境。
(2)自然語(yǔ)言理解與對(duì)話模塊
在自然語(yǔ)言理解與對(duì)話模塊的具體實(shí)現(xiàn)上Google就不是很老實(shí)了,只是給了一些比較寬泛的概念。
郭靖在他的文章中給出了以下猜想:
在這個(gè)猜想的架構(gòu)中,用戶的語(yǔ)音通過(guò)ASR識(shí)別為文字后,會(huì)通過(guò)預(yù)設(shè)的規(guī)則轉(zhuǎn)化為形式語(yǔ)言,將重要實(shí)體用形式模板代替。
這樣形式化后的文本與語(yǔ)音、上文的形式文本一起送入一個(gè)encoder模型,其將這些原始信息編碼成兩個(gè)語(yǔ)義信息向量,一個(gè)代表本輪用戶的語(yǔ)言,另一個(gè)代表上幾輪對(duì)話。
同時(shí),通過(guò)ASR識(shí)別的文本還會(huì)與上幾輪對(duì)話的文本、通過(guò)Google Assistant傳來(lái)的條件參數(shù)(代表對(duì)話的目標(biāo),用戶本身的信息等大前提)一起進(jìn)入另一個(gè)網(wǎng)絡(luò),其根據(jù)輸入的信息輸出一個(gè)代表當(dāng)前對(duì)話狀態(tài)信息的向量。
這一網(wǎng)絡(luò)很可能具備每一輪對(duì)話為一個(gè)step的循環(huán)結(jié)構(gòu),意味著這個(gè)對(duì)話狀態(tài)信息的更新會(huì)參考前一輪對(duì)話狀態(tài)的信息。
當(dāng)然,在拿著錘子找釘子的當(dāng)下,這一塊就太偏前沿技術(shù)了,但是對(duì)于AI,對(duì)于整個(gè)人類歷史,技術(shù)始終都是推動(dòng)發(fā)展的源動(dòng)力。
電子發(fā)燒友App












評(píng)論