chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

cosFormer:重新思考注意力機制中的Softmax

深度學習自然語言處理 ? 來源:我愛計算機視覺 ? 作者:多模態(tài)研究組 - 商 ? 2022-03-30 16:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導讀:Transformer在自然語言處理、計算機視覺音頻處理方面取得了巨大成功。作為其核心組成部分之一,Softmax Attention模塊能夠捕捉長距離的依賴關(guān)系,但由于Softmax算子關(guān)于序列長度的二次空間和時間復雜性,使其很難擴展。

針對這點,研究者提出利用核方法以及稀疏注意力機制的方法來近似Softmax算子,從而降低時間空間復雜度。但是,由于誤差的存在,效果往往不盡如人意。

商湯多模態(tài)研究組認為,近似操作本身存在的誤差使得其效果很難超越Softmax Attention。我們的觀點是,與其近似Softmax,不如設(shè)計一種方式代替Softmax,并且同時降低時間空間復雜度。

因此,本文提出了名為cosFormer的方法,在時間空間復雜度關(guān)于序列長度為線性復雜度的同時,其性能接近或者超越Softmax Attention,并在LRA benchmark上取得SOTA結(jié)果。我們的設(shè)計核心理念基于兩點,首先是注意力矩陣的非負性,其次是對局部注意力的放大(非極大值抑制)。

本文主要介紹已收錄于ICLR 2022的一篇文章 cosFormer : Rethinking Softmax in Attention。

06f3c082-afe8-11ec-aa7f-dac502259ad0.jpg

070b788a-afe8-11ec-aa7f-dac502259ad0.png

Part 1

背景

0723e71c-afe8-11ec-aa7f-dac502259ad0.gif

1. Softmax Attention

為了引出我們的方法,對Softmax Attention的計算方式進行一定的推廣:

073c17f6-afe8-11ec-aa7f-dac502259ad0.png

其中表示相似度計算函數(shù),如果,上式即變?yōu)镾oftmax Attention(不考慮除以的縮放操作)。注意到計算的時間復雜度為,的時間復雜度為,所以總時間復雜度為,即關(guān)于序列長度是二次的。

2. 線性 Attention

通過分析我們發(fā)現(xiàn),性能瓶頸的主要原因是操作,如果相似度函數(shù)可以表示為:

0750d6dc-afe8-11ec-aa7f-dac502259ad0.png

那么:

07600c4c-afe8-11ec-aa7f-dac502259ad0.png

根據(jù)矩陣運算的結(jié)合律:

077434e2-afe8-11ec-aa7f-dac502259ad0.png

上式可以變換為(編者修正:下方公式未變換,請參照論文):

07600c4c-afe8-11ec-aa7f-dac502259ad0.png

經(jīng)過計算后可以得到該方法的時間復雜度為,即關(guān)于序列長度是一次的。

Softmax Attention和線性Attention的計算方式可以用下圖概括:

07a1f260-afe8-11ec-aa7f-dac502259ad0.png

所以接下來將介紹的選擇,以及核心的reweighting操作。

3. Softmax 的兩大性質(zhì)

我們經(jīng)過分析以及實驗,歸納出Softmax Attention中比較重要的性質(zhì),這兩個性質(zhì)可以指導我們的模型設(shè)計:

1. 注意力矩陣的非負性

2. 局部注意力的放大(非極大值抑制)

對于第一點,我們有如下實驗進行驗證(模型結(jié)構(gòu)為RoBERTa):

07bdb856-afe8-11ec-aa7f-dac502259ad0.png

這里Loss表示驗證集損失(越低越好),其余指標均為準確率(越高越好)??梢钥吹剑敱WC了注意力矩陣的非負性之后,可以達到較好的效果?;谠搶嶒灒覀冞x擇為ReLU函數(shù)。

對于第二點,我們的方式是在注意力矩陣中引入先驗locality信息,觀察Softmax注意力矩陣,如下圖所示,我們發(fā)現(xiàn)其注意力矩陣的權(quán)重在對角線附近很集中:

07ce07ce-afe8-11ec-aa7f-dac502259ad0.png

所以我們的方法需要在加了reweighting操作后也更加集中在對角線附近。注意并非所有的有類似權(quán)重的函數(shù)均適用,這個reweighting的函數(shù)需要跟前面的QK一樣可以拆分成兩個矩陣的乘法的形式。

至此,就可以引入我們的cosFormer了。

Part 2

cosFormer

0723e71c-afe8-11ec-aa7f-dac502259ad0.gif

1. 方法

我們的方法基于線性Attention,首先給出符號定義:

08068432-afe8-11ec-aa7f-dac502259ad0.png

根據(jù)之前的分析,我們選擇了:

081836fa-afe8-11ec-aa7f-dac502259ad0.png

可得:

08299756-afe8-11ec-aa7f-dac502259ad0.png

為了進行reweighting操作,并且同時保證線性Attention的計算方式依然成立,我們選擇了cos函數(shù):

0846632c-afe8-11ec-aa7f-dac502259ad0.png

展開可得:

085b3eaa-afe8-11ec-aa7f-dac502259ad0.png

為了便于展示,我們把它記作:

0872566c-afe8-11ec-aa7f-dac502259ad0.png

最終得到:

088c78ee-afe8-11ec-aa7f-dac502259ad0.png

上式和線性Attention的計算方式一致,經(jīng)過分析不難得出時間復雜度依然是。

2. 實驗結(jié)果

我們在單向模型、雙向模型以及LRA benchmark上測試了我們的方法,均取得了非常不錯的效果。

單向語言模型,指標表示困惑度(越低越好):

08a330ac-afe8-11ec-aa7f-dac502259ad0.png

雙向語言模型,指標表示準確率(越高越好):

08be1890-afe8-11ec-aa7f-dac502259ad0.png

LRA benchmark:

1)性能實驗,指標表示準確率(越高越好):

08d4c996-afe8-11ec-aa7f-dac502259ad0.png

2)內(nèi)存速度實驗,指標表示速度(越高越好,如果內(nèi)存溢出,則標記為叉):

08f4b97c-afe8-11ec-aa7f-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4405

    瀏覽量

    66792
  • 計算機視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1714

    瀏覽量

    47443
  • Softmax
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    2777

原文標題:ICLR'22 | cosFormer:重新思考注意力機制中的Softmax

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    湘軍,讓算變成生產(chǎn)?

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    教程來啦!LuatOS的消息通信機制詳解及其應(yīng)用場景

    在資源受限的嵌入式環(huán)境,LuatOS采用消息機制實現(xiàn)模塊間解耦與高效通信。通過預(yù)定義消息名稱(如“new_msg”),開發(fā)者可輕松構(gòu)建響應(yīng)式程序結(jié)構(gòu)。接下來我們將深入剖析其實現(xiàn)原理與典型使用方法
    的頭像 發(fā)表于 09-26 18:59 ?212次閱讀
    教程來啦!LuatOS<b class='flag-5'>中</b>的消息通信<b class='flag-5'>機制</b>詳解及其應(yīng)用場景

    小白學大模型:大模型加速的秘密 FlashAttention 1/2/3

    在Transformer架構(gòu),注意力機制的計算復雜度與序列長度(即文本長度)呈平方關(guān)系()。這意味著,當模型需要處理更長的文本時(比如從幾千個詞到幾萬個詞),計算時間和所需的內(nèi)存會急劇增加。最開始
    的頭像 發(fā)表于 09-10 09:28 ?4293次閱讀
    小白學大模型:大模型加速的秘密 FlashAttention 1/2/3

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】+看視頻+看書籍+國產(chǎn)開源大模型DeepSeekV3技術(shù)詳解--1

    大小的潛在向量 (Latent Vector) c_t 。同時,為了保證對近期上下文的精確感知,它依然會實時計算當前 token 的 K 和 V。 最終,注意力機制的計算將同時作用于“壓縮的歷史
    發(fā)表于 08-23 15:20

    如何在NVIDIA Blackwell GPU上優(yōu)化DeepSeek R1吞吐量

    開源 DeepSeek R1 模型的創(chuàng)新架構(gòu)包含多頭潛在注意力機制 (MLA) 和大型稀疏混合專家模型 (MoE),其顯著提升了大語言模型 (LLM) 的推理效率。
    的頭像 發(fā)表于 08-12 15:19 ?3791次閱讀
    如何在NVIDIA Blackwell GPU上優(yōu)化DeepSeek R1吞吐量

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術(shù)架構(gòu)的奧秘

    一、模型架構(gòu) 在閱讀第三章關(guān)于 DeepSeek 的模型架構(gòu)部分時,我仿佛打開了一扇通往人工智能核心構(gòu)造的大門。從架構(gòu)圖中,能清晰看到 Transformer 塊、前饋神經(jīng)網(wǎng)絡(luò)、注意力機制等模塊
    發(fā)表于 07-20 15:07

    Samtec小課堂| 電氣設(shè)計電纜組件的注意事項

    前言 選擇電纜組件時的關(guān)鍵注意事項有哪些?事實上,這個問題的答案非常寬泛。 在下文中,我們嘗試選擇了幾個主要方面并詳細討論:skew性能、電纜管理和設(shè)計靈活性,希望可以為大家?guī)砀?b class='flag-5'>思考~ 首先,請
    發(fā)表于 07-02 17:19 ?1329次閱讀
    Samtec小課堂| 電氣設(shè)計<b class='flag-5'>中</b>電纜組件的<b class='flag-5'>注意</b>事項

    經(jīng)顱電刺激適應(yīng)癥之tDCS治療注意力缺陷ADHD

    ADHD是常見神經(jīng)行為障礙,癥狀包括注意力不集中、多動和沖動,兒童和青少年患病率為5%-7.2%,成人在1%-10%,男孩多于女孩,成年后部分癥狀會持續(xù),引發(fā)多種并發(fā)癥,給個人、家庭和社會帶來
    的頭像 發(fā)表于 04-22 19:49 ?143次閱讀
    經(jīng)顱電刺激適應(yīng)癥之tDCS治療<b class='flag-5'>注意力</b>缺陷ADHD

    LED顯示屏:點亮商業(yè)未來的璀璨之光

    LED顯示屏不僅是展示工具,更是連接品牌與消費者的現(xiàn)代橋梁。在注意力經(jīng)濟時代,投資LED顯示屏就是投資于企業(yè)的可見度和影響。讓我們攜手,用LED技術(shù)點亮您的商業(yè)未來,在競爭贏得先機。
    的頭像 發(fā)表于 04-16 15:25 ?706次閱讀
    LED顯示屏:點亮商業(yè)未來的璀璨之光

    變頻器重新設(shè)置參數(shù)應(yīng)注意什么?

    進行重新設(shè)置參數(shù)時,我們必須格外謹慎,以確保設(shè)備能夠高效、穩(wěn)定地運行。以下,我們將詳細探討變頻器重新設(shè)置參數(shù)時應(yīng)注意的關(guān)鍵點。 一、了解變頻器與參數(shù)基礎(chǔ) 1. 熟悉變頻器型號與功能: ? ?● 不同型號的變頻器具有不同
    的頭像 發(fā)表于 03-17 16:00 ?1088次閱讀
    變頻器<b class='flag-5'>重新</b>設(shè)置參數(shù)應(yīng)<b class='flag-5'>注意</b>什么?

    Java的SPI機制詳解

    接口規(guī)范以及可以發(fā)現(xiàn)接口實現(xiàn)的機制,而不需要實現(xiàn)接口。 SPI機制在Java應(yīng)用廣泛。例如:JDBC的數(shù)據(jù)庫連接驅(qū)動使用SPI機制,只定
    的頭像 發(fā)表于 03-05 11:35 ?1101次閱讀
    Java的SPI<b class='flag-5'>機制</b>詳解

    《AI Agent 應(yīng)用與項目實戰(zhàn)》閱讀心得2——客服機器人、AutoGen框架 、生成式代理

    了分層存儲架構(gòu),將記憶分為短期記憶、工作記憶和長期記憶三個層次,通過注意力機制和遺忘機制來管理記憶的存儲和調(diào)用。反思機制的創(chuàng)新之處在于引入了元認知模型,使代理能夠?qū)ψ陨淼男袨楹蜎Q策進行
    發(fā)表于 02-25 21:59

    DeepSeek推出NSA機制,加速長上下文訓練與推理

    近日,DeepSeek公司宣布推出一種全新的稀疏注意力機制——NSA(Native Sparse Attention)。據(jù)DeepSeek介紹,NSA旨在與現(xiàn)代硬件實現(xiàn)高度一致,并且具備本機可訓練
    的頭像 發(fā)表于 02-19 14:01 ?898次閱讀

    如何使用MATLAB構(gòu)建Transformer模型

    LanguageProcessing, NLP)的序列到序列任務(wù),如機器翻譯。Transformer 通過引入自注意力機制使得處理長距離依賴關(guān)系時變得高效。因此 Vaswani 等人的論文強調(diào)“
    的頭像 發(fā)表于 02-06 10:21 ?5701次閱讀
    如何使用MATLAB構(gòu)建Transformer模型