chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

放棄 RNN 和 LSTM 吧,它們真的不好用

8g3K_AI_Thinker ? 來源:未知 ? 作者:胡薇 ? 2018-04-25 09:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2014 年 RNN/LSTM 起死回生。自此,RNN/LSTM 及其變種逐漸被廣大用戶接受和認可。起初,LSTM 和 RNN 只是一種解決序列學習和序列翻譯問題的方法(seq2seq),隨后被用于語音識別并有很好的效果,比如 Siri,Cortana,Alexa 等;此外,這種技術在機器翻譯領域也有應用,比如 Google Translate。

2015-2016 年,新的 ResNet 和 Attention 技術出現(xiàn)。實際上,我們可以將 LSTM 理解為一種巧妙地 bypass technique,而 attention 的成功表明了 MLP(多層感知器)網(wǎng)絡可以被上下文向量影響的平均網(wǎng)絡(averaging network)所替代。

兩年過去了,我們現(xiàn)在已經(jīng)可以給出結論:

放棄 RNN 和 LSTM 吧,它們真的不好用

基于 attention 的網(wǎng)絡逐漸被越來越多的企業(yè)采用,比如 Google,F(xiàn)acebook,Salesforce 等公司都已經(jīng)開始用基于attention的模型來替換RNN和其變種。RNN 在各種應用場景下時日無多,因為相比基于 attention 的模型,RNN 需要更多的資源來訓練和運行。

編者注:訓練 RNN 和 LSTM 是非常困難的,因為計算能力受到內(nèi)存和帶寬等的約束。這同時也是硬件設計者的噩夢,并最終限制了神經(jīng)網(wǎng)絡解決方案的適用性。簡而言之,每個 LSTM 單元需要 4 個線性層(MLP 層),以便每個順序時間步運行一次。線性層需要大量的內(nèi)存帶寬才能執(zhí)行計算;由于系統(tǒng)沒有足夠的內(nèi)存帶寬將數(shù)據(jù)饋送到計算單元,實際上它們無法使用許多計算單元。添加更多的計算單元很容易,但添加更多的內(nèi)存帶寬卻很難。因此,RNN/LSTM 及其變種并不和硬件加速非常匹配,一個可能的解決方案就是讓計算在存儲器設備中完成。

為什么 RNN/LSTM 真的不好用?

RNN,LSTM及其變種主要使用序列處理,如下圖所示:

圖1 RNN中的序列處理

圖中的箭頭表示長期信息在進入當前的處理單元前需要有序地進入所有其他的處理單元。也就是說,這很容易通過多次乘小于 0 的數(shù)字來進行破壞和攻擊,這就是梯度消失的原因。

梯度消失可以利用 LSTM 模塊來補救,目前的 LSTM 可是看作是多交換網(wǎng)關,有點像 ResNet。因為 LSTM 可以繞過一些單元,對長時間的步驟進行記憶,因此 LSTM 可以一定程度上解決梯度消失的問題。

圖2 LSTM中的序列處理

從圖2可以看出,從前面的單元傳遞來當前單元的序列路徑依然存在。事實上,因為這條路徑會不斷添加并且會遺忘與之相關的路徑分支,它會變得越來越復雜。LSTM、GRU 及其變體能學習大量的長期信息,但它們最多只能記住約 100s 的長期信息,而不是 1000s,10000s 甚至更長時間的信息。

RNN 還有一個問題就是并不與所有硬件兼容。如果要快速訓練 RNN,那么就需要大量的計算資源,而這正是我們?nèi)鄙俚?。如果在云上運行 RNN 模型的話,也會消耗比其他模型更多的資源。隨著語音轉文本需求的快速增長,云端的擴展也變得更加困難。

你需要做些什么?

因為大多數(shù)時間我們處理的都是實時的因果數(shù)據(jù)(casual data),我們想利用這些已知的數(shù)據(jù)來為之后的決策做準備。那如果可以避免進行序列處理,我們就可以找出更好的 look-ahead 和 look-back 的單元,這樣的 look-ahead/back 就叫做 neural attention 模塊。

這種補救方法融合了多個 neural attention 模塊,組成了一個分層的 neural attention 編碼器,如圖3所示:

圖3 分層 neural attention 編碼器

還有一種更好地分析過去的方法就是用 attention 模塊把過去所有的編碼向量總結為一個上下文向量 Ct。

這里還有一個 attention 模塊的分層,與神經(jīng)網(wǎng)絡和時間卷積網(wǎng)絡(Temporal convolutional network)的分層非常像。分層神經(jīng) attention 編碼器的多層 attention 能查看過去信息的一小部分,比如說 100 個向量,而上面分層的attention模塊還能查看到 100 個下層的注意力模塊,也就是 100×100 個向量。這極大地擴展了分層神經(jīng) attention 編碼器的能力。

更重要的是將傳播向量傳輸?shù)骄W(wǎng)絡輸出所需要的路徑長度:在分層網(wǎng)絡中,路徑長度與 Log(N)成比例的,其中 N 是分層的層數(shù)。這與 RNN 需要執(zhí)行的T步驟形成了對照,其中 T 是需要記住的順序的最大長度,而 T >> N。

Neural Turing Machines(NTM,神經(jīng)圖靈機)的架構也與圖3類似,但是 NTM 是讓神經(jīng)網(wǎng)絡來決定通過 attention 從內(nèi)存中讀取什么的。也就是說,真實的神經(jīng)網(wǎng)絡將決定哪個過去的向量對未來的決策更重要。

在內(nèi)存存儲方面。與 NTM 不同,上面的架構把所有之前的表示都儲存在內(nèi)存里,這就會造成效率比較低的問題。有一個解決的辦法就是增加另外一個單元來防止有相互關系的數(shù)據(jù)多次保存。當前科學研究的重點是由應用去決定保存哪些向量,哪些不保存。

目前許多的公司仍在使用 RNN/LSTM 來進行語音轉文本的工作,都沒有意識到這種網(wǎng)絡結構在效率和可擴展性上的缺點。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3899

    瀏覽量

    141336
  • rnn
    rnn
    +關注

    關注

    0

    文章

    91

    瀏覽量

    7291

原文標題:放棄 RNN/LSTM 吧,因為真的不好用!望周知~

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    FM430-EX固定式掃碼器好用嗎?解析實用功能與優(yōu)點

    在物流分揀、產(chǎn)線管控、自助設備等場景中,固定式掃碼器已成為提升效率的核心工具。新大陸NLS-FM430-EX作為熱門的固定式條碼掃描器,憑借硬核性能收獲眾多企業(yè)青睞。這款二維碼固定式掃描器究竟好不好用
    的頭像 發(fā)表于 11-10 15:28 ?139次閱讀
    FM430-EX固定式掃碼器<b class='flag-5'>好用</b>嗎?解析實用功能與優(yōu)點

    ST AEKD-AICAR1:基于邊緣AI的汽車狀態(tài)分類開發(fā)套件解析

    STMicroelectronics AEKD-AICAR1車用AI套件基于長短期記憶 (LSTM) 循環(huán)神經(jīng)網(wǎng)絡 (RNN)。該套件提供汽車狀態(tài)分類:汽車停車、普通道路行車、崎嶇道路行車、汽車打滑或轉彎。AEKD-AICAR1中的創(chuàng)新想法是定義具有嵌入式人工智能處理功能
    的頭像 發(fā)表于 10-28 14:40 ?238次閱讀
    ST AEKD-AICAR1:基于邊緣AI的汽車狀態(tài)分類開發(fā)套件解析

    電能質(zhì)量在線監(jiān)測裝置在實際應用中如何選擇有線或無線通信技術?

    電能質(zhì)量在線監(jiān)測裝置選擇有線或無線通信技術,核心是 **“先解決‘能不能用’,再優(yōu)化‘好不好用’”**—— 以 “布線可行性” 為首要前提,再結合數(shù)據(jù)需求、環(huán)境特征、成本投入三維度綜合判斷,避免單純依賴技術優(yōu)劣選擇。
    的頭像 發(fā)表于 10-24 18:16 ?1986次閱讀

    阿童木雙張檢測器好不好用?用數(shù)據(jù)和場景說話

    在工業(yè)生產(chǎn)中,雙張疊料檢測是保障產(chǎn)線穩(wěn)定與產(chǎn)品質(zhì)量的關鍵環(huán)節(jié)。阿童木雙張檢測器憑借技術創(chuàng)新和行業(yè)落地經(jīng)驗,成為眾多企業(yè)的選擇。但它究竟“好不好用”?本文將從性能表現(xiàn)、場景適配、用戶反饋三大維度展開
    的頭像 發(fā)表于 05-22 11:39 ?597次閱讀
    阿童木雙張檢測器好<b class='flag-5'>不好用</b>?用數(shù)據(jù)和場景說話

    電子工廠ERP好不好用

    在電子制造業(yè)競爭日益激烈的當下,企業(yè)都在尋找提升效率、降低成本的解決方案,而ERP系統(tǒng)成為了眾多企業(yè)的選擇。那么,電子工廠ERP系統(tǒng)到底好不好用呢?本文將從多個實際應用場景出發(fā),為你揭開答案。一
    的頭像 發(fā)表于 05-12 09:58 ?470次閱讀
    電子工廠ERP好<b class='flag-5'>不好用</b>

    fpga畫圖:用什么軟件畫圖好用

    用什么軟件畫圖好用
    發(fā)表于 05-08 15:33

    Tektronix泰克MSO4054示波器按鈕失靈維修案例

    近期某客戶送修一臺泰克MSO4054示波器,報修故障是按鈕失靈。對儀器進行初步檢測,確定故障為儀器缺縮放旋鈕。儀器屏幕下側按鍵串鍵、細調(diào)按鈕和放大按鍵不好用
    的頭像 發(fā)表于 04-24 16:06 ?581次閱讀
    Tektronix泰克MSO4054示波器按鈕失靈維修案例

    樹莓派OS 的屏幕鍵盤不好用?這個方法可以解決問題!

    導語如果你有一臺樹莓派的觸摸屏或者HMI產(chǎn)品,希望使用屏幕虛擬鍵盤輸入信息時,會出現(xiàn)下面的困惑,默認打開的鍵盤只有一點點,不能鋪滿整個屏幕,用起來很不方便,最后只能放棄改用外部的USB鍵盤
    的頭像 發(fā)表于 03-25 09:19 ?835次閱讀
    樹莓派OS 的屏幕鍵盤<b class='flag-5'>不好用</b>?這個方法可以解決問題!

    請問有什么好用的串口工具嗎?

    有什么好用的串口工具嗎,求推薦
    發(fā)表于 03-10 06:28

    開源mlops平臺好用

    在MLOps平臺的選擇上,開源平臺因其成本效益、靈活性以及社區(qū)支持等優(yōu)勢,受到了越來越多開發(fā)者和企業(yè)的青睞。那么,開源MLOps平臺真的好用嗎?下面,AI部落小編帶您了解。
    的頭像 發(fā)表于 03-05 11:09 ?502次閱讀

    電子元件ERP系統(tǒng)真的好用

    在快速發(fā)展的電子元件行業(yè)中,企業(yè)面臨著日益復雜的管理挑戰(zhàn)。為了提升運營效率、降低成本并增強市場競爭力,許多企業(yè)開始探索電子元件ERP(企業(yè)資源規(guī)劃)系統(tǒng)的應用。那么,電子元件ERP系統(tǒng)究竟是否好用
    的頭像 發(fā)表于 02-27 10:36 ?1263次閱讀
    電子元件ERP系統(tǒng)<b class='flag-5'>真的</b><b class='flag-5'>好用</b>嗎

    深度學習模型在傳感器數(shù)據(jù)處理中的應用(二):LSTM

    長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)是遞歸神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)的一個變種,專門設計用來解決標準 RNN 在處理長
    的頭像 發(fā)表于 02-20 10:48 ?1424次閱讀
    深度學習模型在傳感器數(shù)據(jù)處理中的應用(二):<b class='flag-5'>LSTM</b>

    數(shù)據(jù)驅動AI工具好用

    當今,數(shù)據(jù)驅動AI工具,正逐漸成為企業(yè)和研究機構提升效率、優(yōu)化決策、創(chuàng)新服務的關鍵手段。那么,數(shù)據(jù)驅動AI工具好用嗎?下面,AI部落小編帶您了解。
    的頭像 發(fā)表于 02-14 09:17 ?631次閱讀

    LTC6087仿真結果發(fā)現(xiàn)輸出電壓出現(xiàn)削峰現(xiàn)象,低電壓也達不到軌到軌,怎么解決?

    我本意是為了實現(xiàn)LTC2320模數(shù)轉換器的單端轉差分電路,手冊中推薦了LT1819,結果這個放大器根本不行,無法做到軌到軌,對于單5V電源,輸出只有1~4,不好用。 我的信號調(diào)理濾波電路用了
    發(fā)表于 12-19 07:49

    KiCad的對齊工具不好用?

    “ ?不存在的。唯一的原因是您還沒有學會怎么用。 ? ” 對齊命令在哪里? KiCad的對齊命令(Align)藏得比較隱蔽,既不在菜單欄,也不在工具欄。右鍵的菜單中默認也不存在。只有當您 選中兩個或兩個以上對象 時,才可以在右鍵的菜單中找到它的身影: 如何使用對齊菜單? 經(jīng)常有小伙伴抱怨 KiCad 的對齊的效果很隨機,沒有辦法按照意圖進行對齊操作。真實情況是 KiCad 在執(zhí)行對齊操作時,增加了一層隱含的邏輯: 右鍵點擊時,會以點擊時鼠標下方
    的頭像 發(fā)表于 12-04 18:15 ?1865次閱讀
    KiCad的對齊工具<b class='flag-5'>不好用</b>?