鈦媒體是國內(nèi)首家TMT公司人社群媒體,最有鈦度的一人一媒體平臺,集信息交流融合、IT技術(shù)信息、新媒體于一身的媒體平臺。鈦坦白,作為鈦媒體旗下的微信公開課,匯集行業(yè)大牛鈦客,分享行業(yè)干貨,發(fā)布權(quán)威動態(tài),值得關(guān)注。
人工智能已有60年的發(fā)展歷史,在近兩年,隨著大數(shù)據(jù)、云計算、深度學(xué)習(xí)的進(jìn)一步發(fā)展,迎來了又一次發(fā)展高潮。越來越多相關(guān)公司涌現(xiàn),越來越多的資本涌入,越來越多聲音說,人工智能是下一個風(fēng)口,是未來的方向,鈦媒體在成功舉辦26期共86位鈦客的分享后,“AI已來”系列來了!
數(shù)據(jù)顯示,我國超過70%的人工智能公司主攻圖像或語音識別這兩個分類。在人工智能覆蓋的眾多領(lǐng)域里,語音技術(shù)無疑是最接地氣也是落地最快的。鈦坦白“AI已來”系列分享從“語音/語義識別”開始,邀請了思必馳上海交大聯(lián)合實驗室副主任/上海交通大學(xué)計算機(jī)科學(xué)與工程系助理教授錢彥旻老師,擔(dān)任本次鈦坦白公開課講師,分享《深度學(xué)習(xí)下的語音識別現(xiàn)狀及有效工具》。
以下為錢彥旻老師分享實錄:
報告內(nèi)容分為四個部分,分別為語音交互發(fā)展現(xiàn)狀、語音識別技術(shù)、語音識別技術(shù)有效的開源工具、思必馳上海交大實驗室研究成果。
最近三個月,在語音識別領(lǐng)域,國際上包括工業(yè)界和研究界的幾個大的新聞,一個是2016年10月,美國微軟雷德蒙研究院在電話語音識別的標(biāo)準(zhǔn)庫Switchboard上報道達(dá)到5.9%的錯誤率。在這個庫上,人類的能力大概是5.9%,我們可以看到,機(jī)器的性能已經(jīng)和人類基本達(dá)到了持平。第二個大的新聞是今年9月,CHIME4國際多通道語音分離和識別大賽,最好的系統(tǒng)性能報道達(dá)到了將近2%的一個錯誤率。第三個新聞是關(guān)于中文的,近期百度、搜狗、訊飛開始連續(xù)三場的發(fā)布會,展示語音交互系統(tǒng),識別性能達(dá)到了97%。
那么,語音識別的性能已經(jīng)如此之高,我們還有對它進(jìn)行研究的價值嗎?
那么我們不妨來思考一下,語音識別問題真的解決了嗎?
將以上的三個系統(tǒng)背后的技術(shù)應(yīng)用到我們真實的一些產(chǎn)品中,比如Apple的Siri,Google的Google Now,微軟的Cortana助手,以及亞馬遜的echo,他的性能如何?事實上,這里所列的很多技術(shù)都不能很好的工作。這是因為一些相關(guān)技術(shù)都是針對特定的任務(wù)以及在特定的環(huán)境下進(jìn)行的。我們了解到,即使是一個研究比較成熟的英文命令詞識別系統(tǒng),給它只要添加一點點的麻煩,比如蘇格蘭口音的英語,它的性能就會急速的下降。在這些非配合式的語音交互方面,語音識別的性能遠(yuǎn)遠(yuǎn)沒有滿足我們的要求,語音識別的路還很長。
語音識別是對語音內(nèi)容進(jìn)行提取的一把金鑰匙,它的研究可以追溯到半個世紀(jì)以前。在本世紀(jì)初,基于語音識別的一些產(chǎn)品也開始問世,最有代表性的是2000年左右,美軍用于伊拉克戰(zhàn)場的語音到語音翻譯機(jī)。以及2011年蘋果Apple在Iphone4s上推出了Siri語音助手,之后包括微軟、谷歌、亞馬遜,以及國內(nèi)的百度、訊飛、思必馳等等也推出了各自基于交互語音的一些產(chǎn)品。國內(nèi)外的研究機(jī)構(gòu)很多,包括國外的像幾個大公司,微軟、谷歌,IBM,亞馬遜,以及國內(nèi)的百度、訊飛、思必馳等等,學(xué)術(shù)界包括劍橋、MIT、JHU,以及國內(nèi)的清華大學(xué),中國科大、上海交大等等。
語音識別歷來是人工智能和機(jī)器學(xué)習(xí)中的經(jīng)典難題之一,他的困難主要可以歸結(jié)為三個不確定性,也就是說話人、環(huán)境和設(shè)備。說話人方面,我們不同的人、不同口音、不同方言、不同的說話方式、不同的情感應(yīng)用。環(huán)境方面,如各類噪聲、汽車?yán)嚷暋⑵渌娜寺?、會場的回聲等等。設(shè)備方面,我們可以用手持麥克風(fēng)、領(lǐng)夾麥克風(fēng)、耳戴麥克風(fēng)、近場遠(yuǎn)場的麥克風(fēng)等等。各個方面的不確定性都是很大的,真實應(yīng)用場景下,往往是這三個因素疊加在一起,變得更加的復(fù)雜,所以如何設(shè)計一套魯棒的性能好的語音識別系統(tǒng),來很好的處理好這些不確定性,也是非常具有挑戰(zhàn)性。
統(tǒng)計云識別的這個問題,如果從數(shù)學(xué)上來定義,可以歸結(jié)為一個概率公式,給定觀測到的語音,得到最大的詞序列,通過公式展開,這個概率可以歸為兩個概率,對應(yīng)到我們語音識別中的對應(yīng)的聲學(xué)模型和語言模型。這個概率可進(jìn)一步分解成四個概率模型,分別是特征提取、聲學(xué)模型、字典模型、語言模型,在這四個模塊下,通過一個解碼的過程得到最終的語音識別結(jié)果?;谒膫€概率模型建模,即可在一個龐大的搜索網(wǎng)絡(luò)上進(jìn)行搜索和解碼,實際應(yīng)用中,搜索網(wǎng)絡(luò)十分復(fù)雜,在這四個概率的引導(dǎo)下,我們通過最優(yōu)化的方法將最后的識別結(jié)果找出來。
傳統(tǒng)的語音識別經(jīng)過前端的信號處理、特征提取、聲學(xué)模型、語言模型等模塊的優(yōu)化,來實現(xiàn)系統(tǒng)識別,那么自深度學(xué)習(xí)以來,語音識別還需要哪些工作呢?
基于深度學(xué)習(xí)的第一代語音識別系統(tǒng),將傳統(tǒng)的特征特區(qū)模塊和聲學(xué)建模模塊完成了DNN部分,將傳統(tǒng)的聲學(xué)模型中基于淺層的高斯混合模型替換成了深度神經(jīng)網(wǎng)絡(luò)模型,通過深度神經(jīng)網(wǎng)絡(luò)模型的多層的非線性建模能力直接預(yù)測狀態(tài)之間的分布函數(shù)。同時它通過自身的深度模型的特征引擎能力,可以從比較原始的語音信號中提取中比較具有鑒別能力的特征。語音識別是深度學(xué)習(xí)方法第一個成功的任務(wù)。自2011年深度學(xué)習(xí)方法提出來以后,包括微軟、谷歌,IBM,在各個任務(wù)上,在語音識別方面,包括電話信道、廣播信道、谷歌的移動信道等,基于深度學(xué)習(xí)方法新的語音識別策略都得到大幅的性能提升。
近五年,深度學(xué)習(xí)方法又得到了進(jìn)一步的發(fā)展。更強(qiáng)大的深度神經(jīng)網(wǎng)絡(luò)被應(yīng)用于語音識別,包括卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、長短時記憶模型等。最近幾年的發(fā)展是飛速的,識別性能甚至已經(jīng)達(dá)到了幾乎跟人類持平的水平。
放眼國內(nèi),中文語音交互技術(shù)又發(fā)展到怎樣的水平呢?
根據(jù)公開發(fā)表的文獻(xiàn)可總結(jié)幾家目前的語音識別的技術(shù)方案,包括百度、科大訊飛、思必馳,基本上代表了行業(yè)語音識別研究的最高水平,因為百度有百度深度研究院,訊飛和中國科學(xué)技術(shù)大學(xué)成立聯(lián)合實驗室,思必馳和我們上海交大成立了聯(lián)合研究實驗室。
百度使用的是CLDNN的模型,科大訊飛采用的是FSMNN模型,而我們思必馳和上海交大采用的是VDCNN極深卷積神經(jīng)網(wǎng)絡(luò)的模型,相比于傳統(tǒng)語音模型僅使用1至2層卷積層,該模型通過堆疊較小的卷積層和池化層,將語音模型中的卷積層的深度提高到了10層以上。利用小卷積核更加精細(xì)的局部刻畫能力和頻率不變性描述,能夠更好地在語音模型的內(nèi)部實現(xiàn)了聲學(xué)自動降噪的能力。
語音識別目前還面臨很多困境,具體表現(xiàn)在:
首先是噪聲魯棒性。噪聲環(huán)境下的魯棒語音識別一直是語音識別大規(guī)模應(yīng)用的絆腳石。針對這個困境,思必馳上海交大實驗室推出了相應(yīng)的策略,包括環(huán)境感知的深度模型以及神經(jīng)網(wǎng)絡(luò)的快速自適應(yīng)方法,它使一般的深度模型可以對環(huán)境進(jìn)行實時的感知和自適應(yīng)調(diào)整,提高實現(xiàn)系統(tǒng)性能。另外,我們將極深卷積神經(jīng)網(wǎng)絡(luò)用于抗噪的語音識別,使系統(tǒng)性能大幅提升。在這個方面,我們在今年在語音處理的權(quán)威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing上發(fā)表了三篇期刊論文,可供查閱。
在語音識別的權(quán)威數(shù)據(jù)庫,噪聲數(shù)據(jù)庫Aurora4世界最高水平的幾個研究機(jī)構(gòu)的系統(tǒng)性能的對比,劍橋大學(xué)在2012年深度學(xué)習(xí)方法出來以前最好成績是13.4%的錯誤率,2013年微軟發(fā)表的12.4%的錯誤率,2014年IBM達(dá)到10%的錯誤率,大部分的研究機(jī)構(gòu)最好的識別性能錯別率也在10%左右,2016年上半年,英國愛丁堡大學(xué)8.7%的錯誤率,2016年7月,我們發(fā)表了一篇論文,達(dá)到7.1%的錯誤率。思必馳算法模型的應(yīng)用使得系統(tǒng)巨大的性能提升,在抗噪語音識別上得到飛速的進(jìn)展,這個成果在近幾個月得到廣泛的轉(zhuǎn)載和報道。
第二個難點是多類復(fù)雜性。過去語音識別系統(tǒng)的設(shè)計主要是針對單一環(huán)境、單一場景下進(jìn)行,如何做多類別復(fù)雜場景下的通用的語音識別是非常困難的。
在這個方面,思必馳上海交大實驗室去年參加了由英國BBC公司和EPSRC組辦的國際挑戰(zhàn)賽,其中我們在四個單項上均列世界第一,且每個單項成績均大幅領(lǐng)先第二名,涉及語音識別、說話人分割聚類、標(biāo)注對齊、時序漸進(jìn)語音識別等技術(shù),處于行業(yè)領(lǐng)域地位。
第三個困境是低數(shù)據(jù)資源與多語言。目前大部分語音識別的研究和應(yīng)用,主要是基于一些大語種,比如英語、漢語、法語等,世界上一共有6900多種語言,雖然實現(xiàn)一套基于任何語言的語言識別系統(tǒng)是非常困難。
目前,構(gòu)建一套多語言低數(shù)據(jù)資源的語音識別系統(tǒng)是非常關(guān)鍵和具有實際價值的。就此,我們在公開相同的數(shù)據(jù)環(huán)境下,搭建了相關(guān)系統(tǒng),我們和美國約翰霍普金斯大學(xué)的性能做了對比,我們在相同數(shù)據(jù)集合上取得了一個更優(yōu)的策略。
第四個困境是低計算資源。目前大部分的語音識別的一些應(yīng)用,背后都是基于云端的在線服務(wù),如何在離線的環(huán)境下,基于有限的硬件資源做低功耗的離線的實時的連續(xù)性識別是非常困難的。
在這個方面,思必馳上海交大實驗室通過用CTC模型去取代隱馬模型,將系統(tǒng)性能在速度上提升了7倍多,同時我們將傳統(tǒng)的基于幀同步的解碼方案替換成音素同步解碼方案,將系統(tǒng)的實時率進(jìn)一步提升到20倍,相關(guān)的方法也已發(fā)表在IEEE/ACMTransactions on ASLP的期刊上了。
開源工具以及參考書
第一個是Kaldi語音識別開源軟件。它是由約翰霍普金斯Dan Povey領(lǐng)導(dǎo)的,由九家著名語音機(jī)構(gòu)13人核心工作組歷時兩年開發(fā)完成的語音識別開源軟件,自2011年發(fā)布以來,下載量已經(jīng)超過了兩萬多次,合著的論文已被引用一千多次。(錢彥旻老師為該團(tuán)隊唯一來自亞洲成員)
第二個工具是HTK-Hiddden Markov Model Toolkit。語音識別歷史上第一個開源的工具包,開發(fā)者劍橋大學(xué)的前副校長Steve Young及劍橋大學(xué)智能語音實驗室的主任Phil Woodland教授均為是英國皇家工程院的院士。
第三個工具是CUED-RNNLM。2015年由劍橋開發(fā),對遞歸神經(jīng)網(wǎng)絡(luò)的語言模型進(jìn)行了更好的支持,可以很好的用GPU進(jìn)行加速訓(xùn)練,同時支持快速的訓(xùn)練和評估的算法和自適應(yīng)技術(shù)。這套開源工具包也被劍橋應(yīng)用于近期各類比賽,取得較好成績。
目前也有很多比較流行的開源的深度學(xué)習(xí)工具,比如微軟的CNTK,谷歌的Tensor flow,以及由dmlc維護(hù)的mxnet,來自蒙特利爾大學(xué)的Theano,來自伯克利的Caffe以及來自紐約大學(xué)的Torch等等。
目前微軟的CNTK,也是上海交大和思必馳所使用的一套深度學(xué)習(xí)的開源軟件。它是由微軟的雷德蒙研究院黃學(xué)東博士領(lǐng)導(dǎo)開發(fā)的一套計算網(wǎng)絡(luò)工具包,可以很好的支持對各種神經(jīng)網(wǎng)絡(luò),支持各種新奇算法訓(xùn)練,對比其他開源工具,CNTK無論在單GPU、單機(jī)多卡情況下,還是多機(jī)多卡的情況下,在速度上都有一個明顯的性能的優(yōu)勢。
思必馳上海交大實驗室
思必馳是國內(nèi)為數(shù)不多的擁有完整知識產(chǎn)權(quán)的語音公司,從縱向上看,它是國內(nèi)僅有的兩家擁有全面的語音技術(shù)的公司之一,從07年劍橋創(chuàng)立至今已經(jīng)走過了近十年,擁有豐富的技術(shù)積淀,在2015年的年初,思必馳也首個提出了認(rèn)知智能概念層次。從橫向上看,思必馳是目前國內(nèi)唯一一家只針對智能硬件領(lǐng)域提供語音支持的公司,我們只針對智能車載、家居、機(jī)器人三個領(lǐng)域提供解決方案,保證技術(shù)的垂直性和適用性,思必馳不做2C的產(chǎn)品,專注為智能硬件企業(yè)企業(yè)提供純軟的解決方案和軟硬一體化的解決方案。
思必馳是純技術(shù)型的人工智能公司,根據(jù)客戶的不同需求去提供各種實用且合適的語音方案。如純軟的解決方案,即AIOS對話操作系統(tǒng);在軟硬一體化的解決方案方面,思必馳推出了國內(nèi)首款量產(chǎn)的環(huán)形6+1遠(yuǎn)場麥克風(fēng)陣列、四麥線性方案,并與君正、慶科合作推出帶語音功能的芯片模組。
目前思必馳的業(yè)務(wù)合作領(lǐng)域主要專注在智能硬件領(lǐng)域,包括智能車載、智能家居、智能機(jī)器人。目前在智能車載中,思必馳是阿里YunOS的唯一戰(zhàn)略合作伙伴,2015年10月率先推出了AIOS for Car對話操作系統(tǒng),在后端市場上占有率達(dá)到60%,智能后視鏡約為70%,HUD領(lǐng)域約為80%,目前后裝市場占有率是第一。同時,思必馳也與小鵬汽車、智車優(yōu)行等互聯(lián)網(wǎng)汽車也簽署了合作。在智能家居領(lǐng)域,思必馳已與阿里、騰訊、聯(lián)想、小米、魅族等建立了深度合作關(guān)系,剛剛發(fā)布的小米智能音箱即內(nèi)置了思必馳語音方案。智能機(jī)器人領(lǐng)域,目前生態(tài)尚早,但未來潛力大,思必馳目前打造了大華小樂機(jī)器人、360小巴迪、東方網(wǎng)力、金剛蟻小憶機(jī)器人、小蘿卜機(jī)器人等多個精品案例。
智能語音未來還有很長的路要走,思必馳將致力于打造更實用、更有趣的人機(jī)交互體驗,在未來很長一段時間內(nèi),這都將是我們堅持不變的理念和方向。
-
語音識別
+關(guān)注
關(guān)注
39文章
1780瀏覽量
114220 -
智能語音
+關(guān)注
關(guān)注
11文章
804瀏覽量
49519 -
思必馳
+關(guān)注
關(guān)注
4文章
337瀏覽量
15325
發(fā)布評論請先 登錄
中國第一個媒體人工智能平臺“媒體大腦”發(fā)布,人工智能替代媒體人還有多遠(yuǎn)?
驅(qū)動鈦絲(SMA)的可靠性設(shè)計(2) 不同廠家生產(chǎn)的鈦絲有什么區(qū)別

第五屆戶外數(shù)字媒體研究大會著重探討戶外媒體商業(yè)模式
第五屆戶外數(shù)字媒體研究大會著重探討戶外媒體商業(yè)模式
淺談國內(nèi)車載移動多媒體系統(tǒng)發(fā)展趨勢
華棲云A輪融資超1億,打造國內(nèi)最有價值媒體云服務(wù)平臺
企業(yè)如何運營自媒體?傳統(tǒng)企業(yè)看3遍,初創(chuàng)企業(yè)看5遍!
【鈦極小龜試用體驗】開箱
什么是流媒體服務(wù)器?
webrtc流媒體轉(zhuǎn)發(fā)服務(wù)器是如何定義的
瑞芯微媒體處理軟件平臺(MPP)開發(fā)參考
新華智云科技有限公司展示媒體人工智能平臺“媒體大腦”
青桐資本榮獲鈦媒體“2022年度FA先鋒”TOP10
百望云喜獲鈦媒體“2022年度潛在價值企業(yè)獎”

評論