魅惑丁香,亚洲大波爆乳无码

以下研究成果來自“云知聲—上海師范大學(xué)自然人機交互聯(lián)合實驗室”。

目前，深度學(xué)習(xí)已經(jīng)在機器學(xué)習(xí)應(yīng)用的各個領(lǐng)域取得了非常出色的表現(xiàn)，其成功在很大程度上取決于大數(shù)據(jù)和與之匹配的計算能力。深度學(xué)習(xí)的特性決定了它需要很多的數(shù)據(jù)進(jìn)行學(xué)習(xí)，從而得出模型來完成特定任務(wù)，比如，大詞匯量連續(xù)語音識別上的成功就取決于海量的用于聲學(xué)模型(acoustic model, AM) 訓(xùn)練的帶標(biāo)注的語料庫，借助GPU集群，使得深度學(xué)習(xí)算法和數(shù)據(jù)得到高效完美的結(jié)合，從而帶來了語音識別性能的顯著提升，也推動了語音識別技術(shù)的實際產(chǎn)品落地。

通常，我們把需要在大量帶標(biāo)注的語料庫上進(jìn)行的聲學(xué)模型訓(xùn)練稱為“有監(jiān)督的AM訓(xùn)練”。然而，眾所周知，用人工來標(biāo)注大量的數(shù)據(jù)來訓(xùn)練語音識別系統(tǒng)的代價非常大，需要耗費大量的人力和財力，同時還伴隨著高昂的時間成本，繁瑣的校驗流程。因此，無監(jiān)督或半監(jiān)督AM訓(xùn)練成為當(dāng)前語音識別的研究前沿和熱點。下面借用頂級語音專家、騰訊AI Lab杰出科學(xué)家俞棟老師的話（頂級語音專家、MSR首席研究員俞棟：語音識別的四大前沿研究）簡單科普一下有監(jiān)督，半監(jiān)督和無監(jiān)督學(xué)習(xí)的區(qū)別。

“有監(jiān)督學(xué)習(xí)是比較 well-defined，有比較明確的任務(wù)。目前來講，深度學(xué)習(xí)對這一類問題效果比較好。無監(jiān)督學(xué)習(xí)的目的是要尋找數(shù)據(jù)中的潛在規(guī)律。很多情況下，它試圖尋找某種特征變換和相對應(yīng)的生成模型來表達(dá)原始數(shù)據(jù)。但無監(jiān)督學(xué)習(xí)不僅本身困難，對無監(jiān)督學(xué)習(xí)系統(tǒng)的評價也很難。原因是通過無監(jiān)督學(xué)習(xí)找到的規(guī)律不一定對你將來的任務(wù)有幫助，或者它對某一任務(wù)有幫助，換一個任務(wù)就沒有幫助了。半監(jiān)督學(xué)習(xí)介于兩者中間。因為你已經(jīng)有一部分標(biāo)注信息了，所以你的任務(wù)是明確的，不存在不知如何評估的問題?！?/p>

目前，在語音識別的聲學(xué)模型無監(jiān)督學(xué)習(xí)方面，工業(yè)界和學(xué)術(shù)界的想法都不少，但尚未有成功的案列。我們知道，在有大量標(biāo)注數(shù)據(jù)集的前提下，最新的有監(jiān)督模型總是表現(xiàn)得比無監(jiān)督訓(xùn)練模型更好。但鑒于有監(jiān)督模型訓(xùn)練所需的高昂成本，因此，如何充分利用少量的帶標(biāo)注數(shù)據(jù)來挖掘大量無標(biāo)注數(shù)據(jù)中的有用信息的半監(jiān)督AM學(xué)習(xí)受到研究者的關(guān)注。

下面是我們在借鑒傳統(tǒng)語音識別半監(jiān)督AM訓(xùn)練算法的基礎(chǔ)上，提出的半監(jiān)督AM學(xué)習(xí)方案：

簡述大數(shù)據(jù)的半監(jiān)督聲學(xué)模型訓(xùn)練操作方法

圖1. Unisound半監(jiān)督AM學(xué)習(xí)架構(gòu)圖

傳統(tǒng)的半監(jiān)督AM學(xué)習(xí)大多是基于GMM-HMM的self-training的學(xué)習(xí)方式, 即用來對無標(biāo)注數(shù)據(jù)進(jìn)行解碼的種子模型與目標(biāo)模型相同。自深度學(xué)習(xí)成功引入到語音識別中以來，雖然也出現(xiàn)了其他算法，但目前仍然以self-training思想為主流。然而，我們知道，通過self-training方式獲得的可用無標(biāo)注數(shù)據(jù)容易存在與訓(xùn)練種子模型(seed model) 的人工標(biāo)注數(shù)據(jù)“同質(zhì)”的問題，最終通過這種半監(jiān)督方式訓(xùn)練的AM獲得的收益遠(yuǎn)遠(yuǎn)低于我們的預(yù)期。另外，由于訓(xùn)練數(shù)據(jù)量的大大增加，使得AM訓(xùn)練時所需的計算資源也相應(yīng)增加。

因此，如圖1所示，我們提出采用多種子模型并行解碼的策略，這種策略可充分挖據(jù)海量無監(jiān)督數(shù)據(jù)中的有用信息，在很大程度上避免self-training方法帶來的數(shù)據(jù)同質(zhì)問題。由于各種子模型采用不同的聲學(xué)模型結(jié)構(gòu)，且所用種子模型的結(jié)構(gòu)與最后半監(jiān)督的AM結(jié)構(gòu)也不同，這些種子模型能從多個不同角度學(xué)習(xí)到海量無標(biāo)注數(shù)據(jù)的特性，從而使得從無標(biāo)注數(shù)據(jù)中挑選出來的可用數(shù)據(jù)與人工標(biāo)注數(shù)據(jù)之間存在很強的互補特性，最終體現(xiàn)在半監(jiān)督AM模型性能上。如最終AM結(jié)構(gòu)為CNN+LSTM+DNN (convolutional, long short-term memory, deep neural network) 的級聯(lián)結(jié)構(gòu)，那么種子模型可選用TDNN (time delay neural network), E2E (end-to-end system), DNN-HMM (deep neural network, hidden Markov model), RNN-BLSTM (recurrent neural network with bidirectional long short-term memory) 的聲學(xué)模型結(jié)構(gòu)。

通過種子模型對無標(biāo)注數(shù)據(jù)解碼獲得標(biāo)注后，如何從這些海量數(shù)據(jù)中挑選出有用的數(shù)據(jù)一直是半監(jiān)督AM學(xué)習(xí)中的一個難題。我們除了在語音幀層面采用多種子模型解碼結(jié)果投票策略之外，還在多種子模型解碼lattice層面進(jìn)行了confidence calibration，以在自動標(biāo)注質(zhì)量(ASR decoding結(jié)果) 和數(shù)據(jù)的有用性(informative)方面取得好的平衡為目標(biāo)函數(shù)進(jìn)行自動數(shù)據(jù)挑選(data filtering)。

另外，我們在大量實驗中發(fā)現(xiàn)，海量的無標(biāo)注語音數(shù)據(jù)中，不同來源的數(shù)據(jù)都有其自身的音頻屬性，比如帶口音，低信噪比，合成語音等等，不同屬性的音頻添加到AM模型訓(xùn)練數(shù)據(jù)集中會嚴(yán)重影響最終AM特性，從而影響其在不同測試集合上的泛化能力。因此，我們提出通過在無標(biāo)注數(shù)據(jù)集上設(shè)計合適開發(fā)集(development data)，結(jié)合多種子模型并行解碼的策略來自動獲取無監(jiān)督音頻數(shù)據(jù)的屬性(unlabeled data properties), 然后將這些音頻屬性作為“正則化項”加入到最終聲學(xué)模型訓(xùn)練的目標(biāo)函數(shù)中，有效指導(dǎo)最終AM的訓(xùn)練。

采用如圖1的半監(jiān)督AM學(xué)習(xí)架構(gòu)，我們在大詞匯量中英文混合連續(xù)語音識別任務(wù)上，當(dāng)人工標(biāo)注語音數(shù)據(jù)量為1000小時，通過我們的半監(jiān)督學(xué)習(xí)方法從無標(biāo)注語音中挑選出1000小時加入到人工標(biāo)注訓(xùn)練數(shù)據(jù)集合中，實驗結(jié)果表明，在測試集合上能獲得15% 的字/詞錯誤率(word error rate, WER)的相對降低。當(dāng)人工標(biāo)注語音數(shù)據(jù)量增加到數(shù)萬小時時，加入我們半監(jiān)督AM學(xué)習(xí)方法挑出的大量語音后，WER仍然有約5% 的相對降低。

特別值得一提的是，我們針對各種訓(xùn)練集合和測試集合做過大量實驗，發(fā)現(xiàn)若通過半監(jiān)督學(xué)習(xí)獲取的大量無標(biāo)注數(shù)據(jù)的音頻屬性與測試集合接近，那么最終訓(xùn)練出的AM在該測試集合上就能取得非常大的收益，相比整體測試集上 5% 的相對 WER 降低，在車載導(dǎo)航和音樂相關(guān)的測試集合上能夠獲取12% 左右的相對WER降低。這間接說明了無標(biāo)注數(shù)據(jù)音頻屬性的重要性，同時也說明，在無標(biāo)注數(shù)據(jù)屬性指導(dǎo)下的半監(jiān)督學(xué)習(xí)方法能通過靈活調(diào)整其目標(biāo)函數(shù)的正則化項來達(dá)到我們的預(yù)期目標(biāo)，使得訓(xùn)練出來的AM能靈活適應(yīng)于各種不同的應(yīng)用場合。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

語音識別

語音識別

+關(guān)注

關(guān)注
39

文章
1779

瀏覽量
114191
人工智能

人工智能

+關(guān)注

關(guān)注
1806

文章
48987

瀏覽量
249055
大數(shù)據(jù)

大數(shù)據(jù)

+關(guān)注

關(guān)注
64

文章
8959

瀏覽量
140100

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

簡述大數(shù)據(jù)的半監(jiān)督聲學(xué)模型訓(xùn)練操作方法

評論