以下研究成果來自“云知聲—上海師范大學自然人機交互聯(lián)合實驗室”。
目前,深度學習已經(jīng)在機器學習應用的各個領(lǐng)域取得了非常出色的表現(xiàn),其成功在很大程度上取決于大數(shù)據(jù)和與之匹配的計算能力。深度學習的特性決定了它需要很多的數(shù)據(jù)進行學習,從而得出模型來完成特定任務,比如,大詞匯量連續(xù)語音識別上的成功就取決于海量的用于聲學模型(acoustic model, AM) 訓練的帶標注的語料庫,借助GPU集群,使得深度學習算法和數(shù)據(jù)得到高效完美的結(jié)合,從而帶來了語音識別性能的顯著提升,也推動了語音識別技術(shù)的實際產(chǎn)品落地。
通常,我們把需要在大量帶標注的語料庫上進行的聲學模型訓練稱為“有監(jiān)督的AM訓練”。然而,眾所周知,用人工來標注大量的數(shù)據(jù)來訓練語音識別系統(tǒng)的代價非常大,需要耗費大量的人力和財力,同時還伴隨著高昂的時間成本,繁瑣的校驗流程。因此,無監(jiān)督或半監(jiān)督AM訓練成為當前語音識別的研究前沿和熱點。下面借用頂級語音專家、騰訊AI Lab杰出科學家俞棟老師的話(頂級語音專家、MSR首席研究員俞棟:語音識別的四大前沿研究)簡單科普一下有監(jiān)督,半監(jiān)督和無監(jiān)督學習的區(qū)別。
“有監(jiān)督學習是比較 well-defined,有比較明確的任務。目前來講,深度學習對這一類問題效果比較好。無監(jiān)督學習的目的是要尋找數(shù)據(jù)中的潛在規(guī)律。很多情況下,它試圖尋找某種特征變換和相對應的生成模型來表達原始數(shù)據(jù)。但無監(jiān)督學習不僅本身困難,對無監(jiān)督學習系統(tǒng)的評價也很難。原因是通過無監(jiān)督學習找到的規(guī)律不一定對你將來的任務有幫助,或者它對某一任務有幫助,換一個任務就沒有幫助了。半監(jiān)督學習介于兩者中間。因為你已經(jīng)有一部分標注信息了,所以你的任務是明確的,不存在不知如何評估的問題?!?/p>
目前,在語音識別的聲學模型無監(jiān)督學習方面,工業(yè)界和學術(shù)界的想法都不少,但尚未有成功的案列。我們知道,在有大量標注數(shù)據(jù)集的前提下,最新的有監(jiān)督模型總是表現(xiàn)得比無監(jiān)督訓練模型更好。但鑒于有監(jiān)督模型訓練所需的高昂成本,因此,如何充分利用少量的帶標注數(shù)據(jù)來挖掘大量無標注數(shù)據(jù)中的有用信息的半監(jiān)督AM學習受到研究者的關(guān)注。
下面是我們在借鑒傳統(tǒng)語音識別半監(jiān)督AM訓練算法的基礎(chǔ)上,提出的半監(jiān)督AM學習方案:

圖1. Unisound半監(jiān)督AM學習架構(gòu)圖
傳統(tǒng)的半監(jiān)督AM學習大多是基于GMM-HMM的self-training的學習方式, 即用來對無標注數(shù)據(jù)進行解碼的種子模型與目標模型相同。自深度學習成功引入到語音識別中以來,雖然也出現(xiàn)了其他算法,但目前仍然以self-training思想為主流。然而,我們知道,通過self-training方式獲得的可用無標注數(shù)據(jù)容易存在與訓練種子模型(seed model) 的人工標注數(shù)據(jù)“同質(zhì)”的問題,最終通過這種半監(jiān)督方式訓練的AM獲得的收益遠遠低于我們的預期。另外,由于訓練數(shù)據(jù)量的大大增加,使得AM訓練時所需的計算資源也相應增加。
因此,如圖1所示,我們提出采用多種子模型并行解碼的策略,這種策略可充分挖據(jù)海量無監(jiān)督數(shù)據(jù)中的有用信息,在很大程度上避免self-training方法帶來的數(shù)據(jù)同質(zhì)問題。由于各種子模型采用不同的聲學模型結(jié)構(gòu),且所用種子模型的結(jié)構(gòu)與最后半監(jiān)督的AM結(jié)構(gòu)也不同,這些種子模型能從多個不同角度學習到海量無標注數(shù)據(jù)的特性,從而使得從無標注數(shù)據(jù)中挑選出來的可用數(shù)據(jù)與人工標注數(shù)據(jù)之間存在很強的互補特性,最終體現(xiàn)在半監(jiān)督AM模型性能上。如最終AM結(jié)構(gòu)為CNN+LSTM+DNN (convolutional, long short-term memory, deep neural network) 的級聯(lián)結(jié)構(gòu),那么種子模型可選用TDNN (time delay neural network), E2E (end-to-end system), DNN-HMM (deep neural network, hidden Markov model), RNN-BLSTM (recurrent neural network with bidirectional long short-term memory) 的聲學模型結(jié)構(gòu)。
通過種子模型對無標注數(shù)據(jù)解碼獲得標注后,如何從這些海量數(shù)據(jù)中挑選出有用的數(shù)據(jù)一直是半監(jiān)督AM學習中的一個難題。我們除了在語音幀層面采用多種子模型解碼結(jié)果投票策略之外,還在多種子模型解碼lattice層面進行了confidence calibration,以在自動標注質(zhì)量(ASR decoding結(jié)果) 和數(shù)據(jù)的有用性(informative)方面取得好的平衡為目標函數(shù)進行自動數(shù)據(jù)挑選(data filtering)。
另外,我們在大量實驗中發(fā)現(xiàn),海量的無標注語音數(shù)據(jù)中,不同來源的數(shù)據(jù)都有其自身的音頻屬性,比如帶口音,低信噪比,合成語音等等,不同屬性的音頻添加到AM模型訓練數(shù)據(jù)集中會嚴重影響最終AM特性,從而影響其在不同測試集合上的泛化能力。因此,我們提出通過在無標注數(shù)據(jù)集上設計合適開發(fā)集(development data),結(jié)合多種子模型并行解碼的策略來自動獲取無監(jiān)督音頻數(shù)據(jù)的屬性(unlabeled data properties), 然后將這些音頻屬性作為“正則化項”加入到最終聲學模型訓練的目標函數(shù)中,有效指導最終AM的訓練。
采用如圖1的半監(jiān)督AM學習架構(gòu),我們在大詞匯量中英文混合連續(xù)語音識別任務上,當人工標注語音數(shù)據(jù)量為1000小時,通過我們的半監(jiān)督學習方法從無標注語音中挑選出1000小時加入到人工標注訓練數(shù)據(jù)集合中,實驗結(jié)果表明,在測試集合上能獲得15% 的字/詞錯誤率(word error rate, WER)的相對降低。當人工標注語音數(shù)據(jù)量增加到數(shù)萬小時時,加入我們半監(jiān)督AM學習方法挑出的大量語音后,WER仍然有約5% 的相對降低。
特別值得一提的是,我們針對各種訓練集合和測試集合做過大量實驗,發(fā)現(xiàn)若通過半監(jiān)督學習獲取的大量無標注數(shù)據(jù)的音頻屬性與測試集合接近,那么最終訓練出的AM在該測試集合上就能取得非常大的收益,相比整體測試集上 5% 的相對 WER 降低,在車載導航和音樂相關(guān)的測試集合上能夠獲取12% 左右的相對WER降低。這間接說明了無標注數(shù)據(jù)音頻屬性的重要性,同時也說明,在無標注數(shù)據(jù)屬性指導下的半監(jiān)督學習方法能通過靈活調(diào)整其目標函數(shù)的正則化項來達到我們的預期目標,使得訓練出來的AM能靈活適應于各種不同的應用場合。
-
語音識別
+關(guān)注
關(guān)注
39文章
1802瀏覽量
115526 -
人工智能
+關(guān)注
關(guān)注
1813文章
49709瀏覽量
261248 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
9028瀏覽量
143008
發(fā)布評論請先 登錄
【大語言模型:原理與工程實踐】大語言模型的預訓練
簡述二氧化硫試驗機的操作方法
Pytorch模型訓練實用PDF教程【中文】
半監(jiān)督極限學習機分類模型
基于半監(jiān)督學習框架的識別算法
如何約束半監(jiān)督分類方法的詳細資料概述
最基礎(chǔ)的半監(jiān)督學習
半監(jiān)督學習最基礎(chǔ)的3個概念
基于主動學習的半監(jiān)督圖神經(jīng)網(wǎng)絡模型來對分子性質(zhì)進行預測方法
基于特征組分層和半監(jiān)督學習的鼠標軌跡識別方法
基礎(chǔ)模型自監(jiān)督預訓練的數(shù)據(jù)之謎:大量數(shù)據(jù)究竟是福還是禍?

簡述大數(shù)據(jù)的半監(jiān)督聲學模型訓練操作方法
評論