今天要討論的這個話題應該不少關注人工智能的朋友們都挺感興趣的,作為人體感官的重要一部分,以及輸出思想的主要渠道,它被冠以新一代的交互方式,它就是——語音交互。搜狗、四維圖形、百度、出門問問、云知聲給霸屏了(雖然沒有AR VR刷的那么厲害,但是眼尖的我還是注意到了?。?/p>
怎么大家突然扎推搞起了語音交互?而且做的都還是智能駕駛應用?看來這里面一定有什么!所以編者決定今天給大家詳細講講——“語音交互”。
一、語音交互是什么
語音交互其實可以分成兩塊:語音識別和語義識別。所謂語音識別,就是把人說的語音轉化成計算機可讀的輸入,比如微信中的語音轉文字功能。而語義識別,則要求更高。它要求機器可以聽懂你說的語音,比如你問Siri今天天氣怎么樣,它需要聽懂你說的意思,并完成相應的回答。語音識別和語義識別二者合一,就構成了語音交互,它將是未來的新一代交互模式。
二、語音交互公司
搞清楚一個行業(yè)最好的方式就是去看這個行業(yè)里有哪些公司,所以小編先扒了扒他們都在做什么。
1、國外語音交互的大佬們
Nuance
全球最大的語音技術公司,超1000項專利技術 ,一度雄霸天下。當然現(xiàn)在依然很牛啦。在中國,有9%的語音識別應用是采用Nuance的核心技術。它和電信、移動、聯(lián)通、網(wǎng)通都有合作,cctv春晚的呼叫中心也應用此技術。簡直不可撼動。。。
微軟
提到微軟在語音交互的布局,不得不說起微軟兩姐妹,小冰和小娜。小娜Cortana是微軟發(fā)布的全球第一款個人智能助理。能夠了解用戶的喜好和習慣,幫助用戶進行日程安排、問題回答等。小冰目前已發(fā)布第三代,聽說讀寫技能都已解鎖,從最初只能單純的文字對話跨越至純語音的互動聊天。
谷歌
Google一直致力于投資語音技術,此前收購多家語音識別技術公司及專利。2011年,收購語音通信技術公司 SayNow 和語音合成技術 Phonetic Arts。 2014年收購SR Tech Group的多項語音識別相關的專利,其中包括 “ 搜索引擎語音界面” 和 “ 修改、更新語音識別項目系統(tǒng)” 的專利。
今年4月份Google還開放了自己的語音識別API,即Google 語音搜索和語音輸入的支持技術。Google Cloud SPeech API包括了80多種語言,適用于各種實時語音識別與翻譯應用。
蘋果
蘋果收購過Siri、Novauris、VocalIQ等語音技術公司,且請了不少牛B的人組建基于神經(jīng)網(wǎng)絡算法的語音識別團隊。最近蘋果正依靠語音助手Siri構建更大的生態(tài)系統(tǒng),在最新的HomeKit的合作伙伴名單中,除了國內(nèi)廠商海爾,還有照明廠商飛利浦、科銳 (CREE),以及Marvell(美滿電子)、Honeywell(霍尼韋爾)等全球頂級制造商。
2、國內(nèi)語音交互公司
講完國外的我們來重點講講國內(nèi)的。據(jù)了解,目前我國語音技術廠商基本分為三類:一類是,包括像科大訊飛、捷通華聲等傳統(tǒng)語音技術廠商;第二類是互聯(lián)網(wǎng)廠商,包括百度、騰訊、搜狗等,通過自主建設團隊或者收購,掌握智能語音技術,推廣語音服務;第三類是創(chuàng)業(yè)企業(yè),像云知聲、思必馳等,它們專注于某些行業(yè)領域,比如汽車、家電,來推廣自己的語音技術和產(chǎn)品。
科大訊飛
成立于1999年底,依靠中科大的語音處理技術以及國家的大力扶持,很快就走上了正軌,是目前國內(nèi)最有影響力的語音技術公司,08年的時候就已經(jīng)掛牌上市了,目前市值接近500億。根據(jù)2014年語音產(chǎn)業(yè)聯(lián)盟的數(shù)據(jù)調查顯示,科大訊飛占據(jù)了超過60%的市場份額,絕對是語音技術的龍頭企業(yè)。
百度
語音交互其實很早就被百度確立為戰(zhàn)略方向,2010年的時候百度就與中科院聲學所合作研發(fā)語音識別技術,但是沒搞好。直到14年,百度請來了人工智能領域的泰斗級大師吳恩達,正式組建了語音團隊,專門研究語音相關技術,才得以咸魚翻身。到目前為止,已斬獲了近13%的市場份額,技術實力可與科大訊飛相提并論。
除了技術外,我們還看到百度積極地布局應用端,CarLife、MyCar以及在上個月CES上推出的CoDriver都是百度在車聯(lián)網(wǎng)語音交互的生態(tài)布局。還有百度之前推出的度秘,之前也在KFC中實現(xiàn)了語音點餐這一功能。
搜狗
搜狗在今年的CES ASIA上有驚艷到我,現(xiàn)場模擬車內(nèi)的交互,無論是撥打電話、發(fā)短消息各種信息查詢都不在話下。并且語義理解做的挺棒,可以進行多輪式對話,小編現(xiàn)場試了一下。
搜狗輸入法在語義理解方面的大數(shù)據(jù)積累、搜狗本身就在做的地圖,再加上目前由搜狗自主開發(fā)的語音交互技術,這3者深度結合,在車聯(lián)網(wǎng)應用領域的確是很具優(yōu)勢的。
思必馳
思必馳初創(chuàng)于07年,由劍橋大學團隊創(chuàng)立于英國劍橋高新區(qū),2008年回國創(chuàng)業(yè)。同科大訊飛一樣,思必馳是國內(nèi)為數(shù)不多的擁有全套語音類知識產(chǎn)權的公司。在語音識別、語音合成、語義理解、聲紋識別、對話管理、音頻分析等方面均有深厚技術積累。目前思必馳把語音相關技術整合成 AI OS 人機對話操作系統(tǒng),作為安卓系統(tǒng)之上的一層標準接口,提供給硬件合作伙伴。針對不同場景,AIOS 又分成了 For Car,F(xiàn)or Home,F(xiàn)or Robot 等版本,針對車載、家居、機器人等產(chǎn)品做垂直領域下的對話式交互。在15年年底,思必馳還獲得了新一輪近2億人民幣的投資,不清楚投資方。
出門問問
2012年成立,至今已累計融資7500萬美金?,F(xiàn)有投資方包括紅杉資本、真格基金,SIG海納亞洲、圓美光電、及歌爾聲學,最近還拿了Google投資的C輪融資。
出門問問基于語音識別、語義識別、垂直搜索引擎、語音合成以及智能推送幾項自主研發(fā)的核心技術,已推出了不少產(chǎn)品。有Ticwear(語音操控的可穿戴設備)、魔法小問(語音操控,提供各類生活服務)、開車問問(智能語音車載APP)以及出門問問智能語音助手,語音識別比較紅火的幾個應用場景基本都有鋪路。至于為什么谷歌找了他們投資,我想是因為出門問問應該是除了科大訊飛和百度以外,唯一一家有全套語音交互核心技術的創(chuàng)業(yè)型公司了吧。技術好,效率高,而且出門問問的創(chuàng)始人兼CEO李志飛以及CTO雷欣,都是Google的科學家,所以就這么被相中了。。。
云知聲
云知聲成立于2012年,主要團隊來自于盛大研究院。語音識別技術更多源自于中科院自動化所。其語音識別技術有一定的獨到之處,有一小段時期內(nèi)語音識別率甚至超越科大訊飛。因此也受到了資本的熱捧,B輪融資達到3億人民幣,主要瞄準智能家居市場,現(xiàn)在也有智能車載解決方案。
哦啦語音
哦啦語音于2013年初成立,是威盛電子內(nèi)部孵化的創(chuàng)業(yè)項目。擁有在中文自然語言理解、語音識別、語音控制和語音交互系統(tǒng)等方面的 20 多項自主專利。目前已應用在智能家居、智能車載、可穿戴設備、語義和交互API服務、智能會議系統(tǒng)、手機語音助手幾個方面。他們家最大的特色,是對于中文語義的理解,針對用戶各種問題可以給出生動、活潑、幽默、精確的回答。
三、國內(nèi)語音交互情況
看完目前的國內(nèi)外公司情況,我們不難發(fā)現(xiàn)大家非常統(tǒng)一在智能駕駛領域布了局,相信未來hand-free&eye-free的日子應該不遠。相比國外大公司靠著收購組全語音交互的生態(tài)鏈,國內(nèi)大公司的發(fā)展則比較曲折。剛開始巨頭們都安然地使用著科大訊飛、云知聲等公司的引擎,后突然幡然悔悟,開始了自主研發(fā)的漫漫長路,不過目前除了百度砸重金組建團隊獲得了一些效果以外,其他都還處于未經(jīng)市場檢驗的階段。
同時,我們也很欣慰地看到不少國內(nèi)的語音交互創(chuàng)業(yè)公司正在慢慢崛起,像出門問問,哦啦語音等都擁有核心技術的一批,開始在市場站穩(wěn)腳跟。雖然這種交互方式還有很長的路要走,但語音交互的產(chǎn)業(yè)正在形成一種趨勢,這對于正在發(fā)展中的物聯(lián)網(wǎng)行業(yè)來說,又將是一片待開發(fā)的新藍海,值得各位關注。
電子發(fā)燒友App





評論