国产国语对白露脸正在播放,亚洲AVwang234爱老师,久久人人妻人人澡人人爽

2017 年可以看做是智能語音交互的元年，在這一年里小愛同學、天貓精靈紛紛上市。2018 年里語音交互的落地突然加速，落地的產(chǎn)品從大公司關注的智能音箱擴展到其它品類，比如電視盒子、鬧鐘、燈、智能馬桶等。那接下來語音交互會如何發(fā)展？

▌語音交互的終極目標

語音交互的便利程度正好與人工智能的發(fā)展程度成正比，智能程度越高語音交互的等級也就越高，所以其終極形態(tài)與人工智能的終極形態(tài)類似。

如果拋棄特別夸張的想象來說，那語音交互要能達成《她》或者《黑鏡》里描述的樣子：

當你輸入數(shù)據(jù)給它后，它能夠根據(jù)輸入數(shù)據(jù)表現(xiàn)出不同的個性。

在數(shù)據(jù)的處理上它近乎是全能的，只受個人權限的限制。

如果真的賦予實體，那它可以感知周圍環(huán)境并作出與人類似但很多方面會更優(yōu)秀的反應。

今天的智能音箱和未來相對終極的語音交互方式以及設備相比，其差距要遠大于 X86 電腦和今天 Pad 的差距。

一旦發(fā)展成以上這樣的程度，那語音交互就會徹底地打開邊界，而不只是我們使用數(shù)據(jù)的一種方式，甚至會成為生活的必須品。我們不會對 iPhone 產(chǎn)生依戀，但語音交互則會。

回顧下《黑鏡》里描述的場景，可以對此有更好的理解：

女主人公的丈夫去世，過于思念自己丈夫的女主人公通過公開的自己丈夫的數(shù)據(jù)創(chuàng)建了一個有性格的，屬于自己的語音交互機器人。這個機器人在絕大多數(shù)方面表現(xiàn)和女主丈夫一致。女主使用一段時間后，就升級了這服務，為這語音交互機器人賦予了和自己丈夫一樣的形體。

這看著非?？苹?，但實際上一旦語音交互達到上述程度，那這類事情幾乎一定發(fā)生。既然我們能接受很宅并愿意躲在家里，那就一定能接受這樣一種非真實、但更完美的電子助手進入心靈的世界?！端愤@部電影雖然沒拍，但如果有為個性化語音交互系統(tǒng)塑形的服務，主人公也一定會接受。

在這里反倒是互聯(lián)網(wǎng)限制了我們的想象力，因為互聯(lián)網(wǎng)更多體現(xiàn)的只是工具的屬性，但實際上語音交互系統(tǒng)所涵蓋的范圍要比互聯(lián)網(wǎng)大的多。當前之所以能做的還不多，主要是層級還不夠。

▌語音交互的L1、L2、L3

我們可以這樣定義語音交互的 L1 階段：

能以極高的準確率，在典型的環(huán)境下響應用戶的語音輸入。極高的準確率最低應該在 90%+。這時承載語音交互的設備主要負責功能性的提示與反饋（燈與屏幕等）。

當前所有與語音相關的公司，事實上都是在達成 L1 的路上。L1 的出口為語音交互習慣徹底樹立，人們面對每款設備的時候會首先想到用語音操作，而不是遙控器或者屏幕。

在 L1 階段語音交互更像是自動化程度、精準程度更高的搜索，但搜索的范圍擴大了，不單是局限于已有的數(shù)字內(nèi)容，也擴展到家電、視頻通話等正常搜索不會覆蓋的領域。

我們可以這樣定義 L2 階段：

能以極高的準確率識別出交互的當事人和環(huán)境，然后進行個性化的交互。這時承載語音交互的設備通過攝像頭等傳感器能夠?qū)崟r感知，進行適當移動，初步擬人。

L2 階段體現(xiàn)的是個性化，不再是千人一面。如果 L2 得以達成，那《她》所描述的場景是可以實現(xiàn)的。語音交互可以定制出性格，而這種性格很可能確實滿足某個人的心理期待。

在 L2 階段，語音交互會打破工具的邊界，嘗試走入從來沒被搜索等介入的領域，比如排遣寂寞?，F(xiàn)在的各種 App 是按照領域來切分的，而在 L2 階段，所有 App 的邊界會被打破，信息的輸出是按照人來切分的。也就是說不再有 BAT、頭條、美團等，只有張三的語音交互助理，李四的語音交互助理。

我們可以這樣定義 L3 階段：

只要有數(shù)據(jù)，語音交互系統(tǒng)的能力就可以無邊界擴展（包括個性和能力）。交互設備可以進行擬人化輸出。

L3 階段體現(xiàn)的是后端內(nèi)容擴展的無邊界特性，不再是有多少智能就有多少人工，以及擬人化輸出。擬人化輸出包括移動、說話的語調(diào)、風格、姿態(tài)等。

如果 L3 階段得以實現(xiàn)，那《黑鏡》描述的場景是可以實現(xiàn)的。只要有一個人充分的數(shù)據(jù)描述，就可以立刻模擬這個人，然后賦予他一個真實的身體。

在 L3 階段，語音交互及其載體，將是社會生活、甚至家庭的一部分。

本質(zhì)上，從 L1 到 L3 體現(xiàn)的是數(shù)字化和智能程度不斷加深，同時數(shù)字和智能又按照人類的理想形態(tài)進行物化的過程。這一過程也是完全顛覆基于手機的移動互聯(lián)網(wǎng)的過程。

▌語音交互發(fā)展的核心障礙

整個行業(yè)迫切需要徹底解決下面的問題：

解決前端聲學適配問題，否則變成每個設備都需要調(diào)整，但真正能對其調(diào)整的人員很少。

NLP 整合足夠全的內(nèi)容資源，開發(fā)出缺省的 Killer App，因為產(chǎn)品公司不可能系統(tǒng)地在產(chǎn)品周期內(nèi)整合所有內(nèi)容。

落地方式多樣化（包括純軟件、模組的）。語音交互和移動應用的根本不同是需要面對多種多樣的設備，所以其自身的落地形態(tài)必須是靈活的。

眼下不同產(chǎn)品公司的訴求差別很大，小公司希望的是 turn-key 的方案，有內(nèi)容的公司希望的是自己做部分 NLP，偏行業(yè)的公司希望的是有帶硬件可貼牌的產(chǎn)品、但自己開發(fā)手機 App，諸如此類。

因為用戶需求的復雜性，落地是一個相對長跑且需要保持靈活的過程，不同產(chǎn)品公司需求的內(nèi)核是一樣的，但處理大品牌客戶總是需要靈活處理很多細節(jié)。這對于創(chuàng)業(yè)公司難度不大，但對巨頭會形成難以跨越的障礙。

▌未來三年必然會達成的成績

現(xiàn)在與語音交互相關的公司，核心在做的就是 L1 階段的事。這個階段雖然在人工智能的大趨勢里面，但本質(zhì)上智能并沒那么關鍵，關鍵的是便利以及能輸出的內(nèi)容。這兩者會推動樹立語音交互這種習慣。

如果要在數(shù)量級上進行判斷的話，那三年后可以達成的目標是：

每年有 10 億臺支持語音交互的設備售出。

至少故事機、電視機、電視盒子、汽車前后裝、白色家電、燈、鬧鐘等會加入這種特性。手機、Pad、電腦這些大品類上語音交互的能力則會變成標配，但使用頻次估計需要更長的時間進行提升。在最初，交互頻次會很差（這點在前文已提及），語音交互本身并非一種獨立的交互方式，而是同其背后的內(nèi)容深度綁定，我們很多的應用實際上是針對手機和鍵盤鼠標操作優(yōu)化過的。

凡是電子設備都可以用語音來進行交互。

語音交互不會挑設備，同之前的交互相比，它可以更加低廉，理論上只要麥克風并且能聯(lián)網(wǎng)就足夠了。相較于給設備加入鍵盤鼠標或者屏幕，這個成本要低很多。這點上做出表率的仍然是亞馬遜，亞馬遜不停地推出新的設備，如微波爐、車載設備等。當然不同設備上語音交互的層次是不同的，有些設備如白色家電，語音交互會限制在一到三輪以內(nèi)。

在更高一級的視角下，當前的所有努力本質(zhì)作用就一個：通過便利性樹立語音交互的習慣。但是，習慣背后跟隨的是用戶時間，二者又會為下面的進一步發(fā)展提供試驗田。只有達成了這一目標，從技術到產(chǎn)品再到用戶這一循環(huán)才算真正完成了第一次迭代。

▌結語

語音交互看著太簡單了，不過是說話而已，所以很容易被誤解為，像說話一樣的交互就是現(xiàn)在語音交互設備所應該能干的事。其實不是，語音交互的從 L1 到 L3 有可能比自動駕駛從 L1 到 L5 還要漫長。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1818

文章
50124

瀏覽量
265618
語音交互

語音交互

+關注

關注
3

文章
352

瀏覽量
29177

原文標題：語音交互只是說話？相比自動駕駛它還在L1級！

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

語音交互只是處于自動駕駛的L1級階段

評論