a无码亚洲男人的天堂在线,337P日本大胆欧洲亚洲色噜噜

在本文中，我們描述了Google最新發(fā)布的一個用于幫助訓(xùn)練和評估關(guān)鍵詞識別系統(tǒng)的口語詞匯組成的音頻數(shù)據(jù)集。討論了為什么這個任務(wù)是一個有趣的挑戰(zhàn)，以及為什么它需要一個專門的，與用于對完整句子進行自動語音識別的傳統(tǒng)數(shù)據(jù)集所不同的數(shù)據(jù)集。

我們提出了一種對該任務(wù)進行可重復(fù)、可比較的精確度指標度量方法。描述了數(shù)據(jù)是如何被收集和驗證的，它所包含的內(nèi)容，以及其以前的版本和屬性。通過報告在該數(shù)據(jù)集上訓(xùn)練的模型的基線結(jié)果而得出了結(jié)論。

一般說來，語音識別研究傳統(tǒng)上需要大學(xué)或企業(yè)等大型機構(gòu)的資源來進行。在這些機構(gòu)工作的人通?？梢酝ㄟ^與語言數(shù)據(jù)聯(lián)盟（Linguistic Data Consortium）等組織達成協(xié)議，從而自由地訪問并使用學(xué)術(shù)數(shù)據(jù)集或者專有的商業(yè)數(shù)據(jù)。

隨著語音技術(shù)的成熟，想要訓(xùn)練和評估識別模型的人數(shù)已經(jīng)不僅只是這些傳統(tǒng)組織群體，但是數(shù)據(jù)集的可用性并沒有被擴展。正如ImageNet和計算機視覺領(lǐng)域中類似的集合所顯示的那樣，拓寬對數(shù)據(jù)集的訪問可以鼓勵跨組織的協(xié)作，并使得在不同方法之間能夠進行同類比較，幫助整個領(lǐng)域向前發(fā)展。

語音命令數(shù)據(jù)集（Speech Commands dataset）是為一類簡單的語音識別任務(wù)構(gòu)建標準訓(xùn)練和評估數(shù)據(jù)集的嘗試。它的主要目標是提供一種方法來構(gòu)建和測試小模型，這些模型可以從背景噪音或不相關(guān)語音中以盡可能少的誤報（false positives），從一組10個或更少的目標單詞中檢測出單個單詞的使用時間，這個任務(wù)通常被稱為關(guān)鍵詞識別。

為了覆蓋到更廣泛的研究人員和開發(fā)人員，該數(shù)據(jù)集已經(jīng)在“知識共享”（Creative Commons）4.0許可下被發(fā)布了出來。這使該數(shù)據(jù)集能夠很容易地被納入到教程和其他腳本中，可以被下載和使用，而不需要任何用戶干預(yù)（例如，在網(wǎng)站上注冊或向管理員發(fā)送電子郵件尋求許可）。該許可證在商業(yè)環(huán)境中也是眾所周知的，因此通常在需要批準的情況下可以由法律團隊快速處理。

圖1：數(shù)據(jù)集中每個單詞的記錄數(shù)量

▌相關(guān)研究

Mozilla的通用語音（Common Voice）數(shù)據(jù)集擁有2萬名不同的人的超過500個小時的語音，并且可以在“知識共享”Zero許可（類似于公共域）下使用。這個許可證使得構(gòu)建它非常容易。它由句子對齊，并且是由志愿者通過網(wǎng)絡(luò)應(yīng)用程序閱讀請求的短語而創(chuàng)建的。

LibriSpeech是一個1000小時的閱讀英語演講集，在“知識共享”4.0許可下發(fā)布，并使用受到廣泛支持的開源FLAC 編碼器進行存儲。它的標簽只在句子級別上對齊，因此缺少詞級的對齊信息。這使得它比起關(guān)鍵詞識別更適合全自動語音識別。

TIDIGITS包含由300位不同說話者錄制的25,000位數(shù)字序列，由付費的參與者在安靜的房間錄制。該數(shù)據(jù)集只能在來自語言數(shù)據(jù)聯(lián)盟的商業(yè)許可下使用，并且以NIST SPHERE文件格式存儲，這種格式被證實難以使用現(xiàn)代軟件來解碼。我們關(guān)于關(guān)鍵詞識別的初始實驗是使用該數(shù)據(jù)集進行的。

CHiME-5擁有在人們家中錄制的50個小時的語音記錄，存儲為16 KHz的 WAV文件，并可以在有限的許可下使用。它在句子級別對齊。

許多語音接口依賴關(guān)鍵詞識別來啟動交互。例如，你可能會說”Hey Google"或"Hey Siri”開始查詢或命令你的手機。一旦設(shè)備知道你想要進行交互，就可以將音頻發(fā)送到Web服務(wù)以運行一個僅受商業(yè)考慮限制的模型，因為它可以在資源由云服務(wù)提供商控制的服務(wù)器上運行。雖然交互開始的初始檢測想要作為基于云的服務(wù)運行是不切實際的，因為它需要始終從所有設(shè)備通過網(wǎng)絡(luò)發(fā)送音頻數(shù)據(jù)。這樣維護成本會非常高，并且會增加該技術(shù)的隱私風(fēng)險。

相反，大多數(shù)語音接口在手機或其他設(shè)備上本地運行識別模塊。這種連續(xù)監(jiān)聽來自麥克風(fēng)的音頻輸入，并不是通過互聯(lián)網(wǎng)將數(shù)據(jù)發(fā)送到服務(wù)器，而是他們運行監(jiān)聽所需觸發(fā)短語的模型。一旦聽到可能的觸發(fā)信號后，就開始將音頻傳輸?shù)絎eb服務(wù)。由于本地模型在不受Web服務(wù)提供商控制的硬件上運行，因此設(shè)備模型必須尊重硬資源限制。其中最明顯的是，通常移動處理器所具有的總計算能力比大多數(shù)服務(wù)器要低得多，因此為了實現(xiàn)交互式響應(yīng)，近似實時運行，設(shè)備模型的計算所需的計算量必須少于其等效云計算量。

更巧妙的是，移動設(shè)備的電池續(xù)航時間有限，而且持續(xù)運行的任何設(shè)備都需要非常節(jié)能，否則用戶會發(fā)現(xiàn)設(shè)備的耗電速度太快。這一考慮不適用于插電式家用設(shè)備，但這些設(shè)備在可以消散多少熱量上存在一定的限制，從而限制了本地模型可用的能源數(shù)量，并受到諸如能源之星（EnergyStar）等計劃的鼓勵，盡可能減少其整體用電量。最后需要考慮的是，用戶期望設(shè)備能夠做出快速響應(yīng)，而網(wǎng)絡(luò)延遲可能會因環(huán)境而變化很大，因此，即使服務(wù)器的全部響應(yīng)延遲，一些命令已收到的初始確認對于獲得良好體驗也很重要。

這些約束意味著，關(guān)鍵詞識別的任務(wù)與一旦發(fā)現(xiàn)交互后在服務(wù)器上執(zhí)行的語音識別是完全不同的：

關(guān)鍵詞識別模型必須更小，所涉及的計算量更少。

它們需要以非常節(jié)能的方式運行。

它們的大部分輸入是沉默或背景噪聲，而不是言語，所以誤報必須盡量減少。

大部分語音輸入與語音接口無關(guān)，因此模型不應(yīng)觸發(fā)任意語音。

識別的重要單位是單個單詞或短語，而不是整個句子。

這些差異意味著設(shè)備內(nèi)關(guān)鍵詞識別和一般語音識別模型之間的訓(xùn)練和評估過程是完全不同的。有一些有發(fā)展前景的數(shù)據(jù)集可以支持通用的語音任務(wù)，例如Mozilla的通用語音，但它們不容易適用于關(guān)鍵詞識別。

此語音命令數(shù)據(jù)集旨在滿足構(gòu)建和測試設(shè)備上模型的特殊需求，使模型作者能夠使用與其他模型相媲美的度量標準來演示其架構(gòu)的精確度，并為團隊提供一種簡單的方法通過對相同數(shù)據(jù)進行訓(xùn)練來重現(xiàn)基準模型。希望這將加速進展和協(xié)作，并提高可用模型的整體質(zhì)量。

第二個重要受眾是硬件制造商。通過使用密切反映產(chǎn)品需求的公開可用任務(wù)，芯片供應(yīng)商可以以潛在購買者易于比較的方式展示其產(chǎn)品的精確度和能源使用情況。這種增加的透明度應(yīng)該會導(dǎo)致硬件更好地滿足產(chǎn)品要求。這些模型還應(yīng)提供硬件工程師可用來優(yōu)化其芯片的清晰規(guī)范，并可能提出模型更改，以便提供更高效的實現(xiàn)。機器學(xué)習(xí)和硬件之間的這種協(xié)同設(shè)計可以是一個良性循環(huán)，在各個領(lǐng)域之間增加有用信息的流動，而這對雙方都有幫助。

圖2：使用不同訓(xùn)練數(shù)據(jù)的Top-One精確度評估結(jié)果

該數(shù)據(jù)集的版本1于2017年8月3日發(fā)布，包含1,881位演講者的64,727條發(fā)言。使用V1訓(xùn)練數(shù)據(jù)對來自TensorFlow教程（基于卷積神經(jīng)網(wǎng)絡(luò)的小尺寸關(guān)鍵詞識別）中的默認卷積模型進行訓(xùn)練，當對V1的測試集進行評估時，TopOne得分為85.4％。使用本文中所記錄的數(shù)據(jù)集版本2對相同模型進行訓(xùn)練，產(chǎn)生了一個模型，該模型在從V2數(shù)據(jù)中提取的訓(xùn)練集中Top-One得分為88.2％。在V2數(shù)據(jù)上進行訓(xùn)練，但是針對V1測試集進行評估的模型得到89.7％的Top-One得分，這表明V2訓(xùn)練數(shù)據(jù)在精確度上比V1大大提高。圖2列出了完整結(jié)果。

總而言之，該語音命令數(shù)據(jù)集對于訓(xùn)練和評估多種模型來說是非常有用的，而第二個版本顯示了相較于原始數(shù)據(jù)的等效測試數(shù)據(jù)的改進結(jié)果。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

語音技術(shù)

語音技術(shù)

+關(guān)注

關(guān)注
2

文章
226

瀏覽量
21735
識別系統(tǒng)

識別系統(tǒng)

+關(guān)注

關(guān)注
1

文章
159

瀏覽量
19413
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1232

瀏覽量
26075

原文標題：Google發(fā)布最新「語音命令」數(shù)據(jù)集，可有效提高關(guān)鍵詞識別系統(tǒng)性能

文章出處：【微信號：AI_Thinker，微信公眾號：人工智能頭條】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

Google最新發(fā)布的一個用于幫助訓(xùn)練和評估關(guān)鍵詞識別系統(tǒng)的口語詞匯組成的音頻數(shù)據(jù)集

評論