一個月前,微軟的對話語音識別技術在產(chǎn)業(yè)標準 Switchboard 語音識別基準測試中實現(xiàn)了詞錯率(word error rate, 簡稱 WER)低至 6.3% 的突破 ,創(chuàng)造當時該領域內(nèi)錯誤率最低紀錄。
近期,微軟進一步將詞錯率降低至5.9%,首次達成與專業(yè)速記員持平而優(yōu)于絕大多數(shù)人的表現(xiàn)。
微軟的語音識別技術可以一次又一次刷新紀錄,在很大程度上要歸功于 CNTK (Computational Network Toolkit) 這個開源工具。
該系統(tǒng)最初是為了研究語音應用而建立,后來拓展發(fā)展成為微軟本地化深度學習系統(tǒng)。CNTK 工具包已于一年前在 GitHub 上開源,目前包括微軟人工智能個人助理小娜和 HoloLens 的語音識別都是基于 CNTK 實現(xiàn)的。CNTK 跟其他開源軟件最大的區(qū)別是它能做大規(guī)模、分布式的機器學習,同時保證強大的性能。
今天,該工具包進行了更新,新增一個被稱為“認知工具包”的測試版。
針對語音識別的研究可以追溯到上個世紀七十年代 DARPA(Defense Advanced Research Projects Agency,美國國防部先進研究項目局,主要致力于美國國防高新技術的研究、開發(fā)和應用)資助的一個相關項目。此后幾十年,越來越多研究機構和大型公司陸續(xù)加入其中。
“這次突破是過去二十多年語音識別技術不斷積累的結果,”微軟主管語言及對話研究組的研究員 Geoffrey Zweig 稱。
現(xiàn)在微軟達到的 5.9% 的詞錯率是什么概念?
在行業(yè)標準 Switchboard 語音識別任務測試中,人類對照組(由專業(yè)速記員組成)將對話語音轉錄成文字,目前有記錄的最低詞錯率就是 5.9%,這就意味著微軟的語音識別系統(tǒng)的語音識別能力已經(jīng)高于世界上絕大多數(shù)人而與人類專業(yè)高手持平,創(chuàng)造了一項新的世界紀錄。
此次語音識別的里程碑式突破將對消費者和商業(yè)產(chǎn)品產(chǎn)生深遠影響,因為語音識別技術能夠顯著增強人們的日常計算體驗。這些產(chǎn)品包括像 XBOX 的娛樂設備、像微軟小娜(Cortana)的生產(chǎn)力工具以及能實現(xiàn)實時語音到文本轉錄的個人人工智能助手。
微軟團隊的詞錯率雖然實現(xiàn)了與人類專業(yè)速記員持平的 5.9%,但這并不代表計算機就能完美識別出每一個單詞。如果哪天計算機能完美識別“藍瘦”、“香菇”,那語音識別技術又將達到一個新的高度。
電子發(fā)燒友App





評論