chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么transformer性能這么好?Transformer的上下文學(xué)習(xí)能力是哪來的?

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 作者:智能感知與物聯(lián)網(wǎng) ? 2023-09-25 12:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

有理論基礎(chǔ),我們就可以進(jìn)行深度優(yōu)化了。
為什么 transformer 性能這么好?它給眾多大語言模型帶來的上下文學(xué)習(xí) (In-Context Learning) 能力是從何而來?在人工智能領(lǐng)域里,transformer 已成為深度學(xué)習(xí)中的主導(dǎo)模型,但人們對于它卓越性能的理論基礎(chǔ)卻一直研究不足。 最近,來自 Google AI、蘇黎世聯(lián)邦理工學(xué)院、Google DeepMind 研究人員的新研究嘗試為我們揭開謎底。在新研究中,他們對 transformer 進(jìn)行了逆向工程,尋找到了一些優(yōu)化方法。論文《Uncovering mesa-optimization algorithms in Transformers》:

84a89f1c-5ad6-11ee-939d-92fbcf53809c.jpg

論文鏈接:https://arxiv.org/abs/2309.05858 作者證明,最小化通用自回歸損失會產(chǎn)生在 Transformer 的前向傳遞中運行的基于輔助梯度的優(yōu)化算法。這種現(xiàn)象最近被稱為「mesa 優(yōu)化(mesa-optimization)」。此外,研究人員發(fā)現(xiàn)所得的 mesa 優(yōu)化算法表現(xiàn)出上下文中的小樣本學(xué)習(xí)能力,與模型規(guī)模無關(guān)。因此,新的結(jié)果對此前大語言模型中出現(xiàn)的小樣本學(xué)習(xí)的原理進(jìn)行了補(bǔ)充。 研究人員認(rèn)為:Transformers 的成功基于其在前向傳遞中實現(xiàn) mesa 優(yōu)化算法的架構(gòu)偏差:(i) 定義內(nèi)部學(xué)習(xí)目標(biāo),以及 (ii) 對其進(jìn)行優(yōu)化。

84b8731a-5ad6-11ee-939d-92fbcf53809c.png

圖 1:新假設(shè)的說明:優(yōu)化自回歸 Transformer fθ 的權(quán)重 θ 會產(chǎn)生在模型前向傳播中實現(xiàn)的 mesa 優(yōu)化算法。作為輸入序列 s_1, . 。。, s_t 被處理到時間步 t,Transformer (i) 創(chuàng)建一個由輸入 - 目標(biāo)關(guān)聯(lián)對組成的內(nèi)部訓(xùn)練集,(ii) 通過結(jié)果數(shù)據(jù)集定義內(nèi)部目標(biāo)函數(shù),用于衡量內(nèi)部模型的性能 使用權(quán)重 W,(iii) 優(yōu)化該目標(biāo)并使用學(xué)習(xí)的模型生成未來的預(yù)測84c44136-5ad6-11ee-939d-92fbcf53809c.jpg 該研究的貢獻(xiàn)包括:
  • 概括了 von Oswald 等人的理論,并展示了從理論上,Transformers 是如何通過使用基于梯度的方法優(yōu)化內(nèi)部構(gòu)建的目標(biāo)來自回歸預(yù)測序列下一個元素的。
  • 通過實驗對在簡單序列建模任務(wù)上訓(xùn)練的 Transformer 進(jìn)行了逆向工程,并發(fā)現(xiàn)強(qiáng)有力的證據(jù)表明它們的前向傳遞實現(xiàn)了兩步算法:(i) 早期自注意力層通過分組和復(fù)制標(biāo)記構(gòu)建內(nèi)部訓(xùn)練數(shù)據(jù)集,因此隱式地構(gòu)建內(nèi)部訓(xùn)練數(shù)據(jù)集。定義內(nèi)部目標(biāo)函數(shù),(ii) 更深層次優(yōu)化這些目標(biāo)以生成預(yù)測。
  • 與 LLM 類似,實驗表明簡單的自回歸訓(xùn)練模型也可以成為上下文學(xué)習(xí)者,而即時調(diào)整對于改善 LLM 的上下文學(xué)習(xí)至關(guān)重要,也可以提高特定環(huán)境中的表現(xiàn)。
  • 受發(fā)現(xiàn)注意力層試圖隱式優(yōu)化內(nèi)部目標(biāo)函數(shù)的啟發(fā),作者引入了 mesa 層,這是一種新型注意力層,可以有效地解決最小二乘優(yōu)化問題,而不是僅采取單個梯度步驟來實現(xiàn)最優(yōu)。實驗證明單個 mesa 層在簡單的順序任務(wù)上優(yōu)于深度線性和 softmax 自注意力 Transformer,同時提供更多的可解釋性。

84cfd366-5ad6-11ee-939d-92fbcf53809c.png

  • 在初步的語言建模實驗后發(fā)現(xiàn),用 mesa 層替換標(biāo)準(zhǔn)的自注意力層獲得了有希望的結(jié)果,證明了該層具有強(qiáng)大的上下文學(xué)習(xí)能力。
基于最近人們的工作表明,經(jīng)過明確訓(xùn)練來解決上下文中的小樣本任務(wù)的 transformer 可以實現(xiàn)梯度下降(GD)算法。在這里,作者展示了這些結(jié)果可以推廣到自回歸序列建模 —— 這是訓(xùn)練 LLM 的典型方法。 首先分析在簡單線性動力學(xué)上訓(xùn)練的 transformer,其中每個序列由不同的 W* 生成 - 以防止跨序列記憶。在這個簡單的設(shè)置中,作者展示了 transformer 創(chuàng)建 mesa 數(shù)據(jù)集,然后使用預(yù)處理的 GD 優(yōu)化 mesa 目標(biāo)。

84e1e7b8-5ad6-11ee-939d-92fbcf53809c.png

該研究在聚合相鄰序列元素的 token 結(jié)構(gòu)上訓(xùn)練深度 transformer。有趣的是,這種簡單的預(yù)處理會產(chǎn)生極其稀疏的權(quán)重矩陣(只有不到 1% 的權(quán)重非零),從而產(chǎn)生逆向工程算法。

84ec4348-5ad6-11ee-939d-92fbcf53809c.png

對于單層線性自注意力,權(quán)重對應(yīng)一個 GD 步驟。對于深度 transformer,可解釋性就變得困難。該研究依靠線性探測并檢查隱藏激活是否可以預(yù)測自回歸目標(biāo)或預(yù)處理輸入。 有趣的是,兩種探測方法的可預(yù)測性都會隨著網(wǎng)絡(luò)深度的增加而逐漸提高。這一發(fā)現(xiàn)表明模型中隱藏著預(yù)處理的 GD。

84f767c8-5ad6-11ee-939d-92fbcf53809c.jpg

圖 2:對經(jīng)過訓(xùn)練的線性自注意力層進(jìn)行逆向工程。 該研究發(fā)現(xiàn),在構(gòu)建中使用所有自由度時,可以完美地擬合訓(xùn)練層,不僅包括學(xué)習(xí)的學(xué)習(xí)率 η,還包括一組學(xué)習(xí)的初始權(quán)重 W_0。重要的是,如圖 2 所示,學(xué)得的 one-step 算法的性能仍然遠(yuǎn)遠(yuǎn)優(yōu)于單個 mesa 層。 我們可以注意到,在簡單的權(quán)重設(shè)置下,很容易通過基礎(chǔ)優(yōu)化發(fā)現(xiàn),該層可以最優(yōu)地解決此處研究的任務(wù)。該結(jié)果證明了硬編碼歸納偏差有利于 mesa 優(yōu)化的優(yōu)勢。 憑借對多層案例的理論見解,先分析深度線性和 softmax 僅注意 Transformer。作者根據(jù) 4 通道結(jié)構(gòu)設(shè)置輸入格式,8500f400-5ad6-11ee-939d-92fbcf53809c.jpg,這對應(yīng)于選擇 W_0 = 0。

與單層模型一樣,作者在訓(xùn)練模型的權(quán)重中看到了清晰的結(jié)構(gòu)。作為第一個逆向工程分析,該研究利用這個結(jié)構(gòu)并構(gòu)建一個算法(RevAlg-d,其中 d 表示層數(shù)),每個層頭包含 16 個參數(shù)(而不是 3200 個)。作者發(fā)現(xiàn)這種壓縮但復(fù)雜的表達(dá)式可以描述經(jīng)過訓(xùn)練的模型。特別是,它允許以幾乎無損的方式在實際 Transformer 和 RevAlg-d 權(quán)重之間進(jìn)行插值。 雖然 RevAlg-d 表達(dá)式解釋了具有少量自由參數(shù)的經(jīng)過訓(xùn)練的多層 Transformer,但很難將其解釋為 mesa 優(yōu)化算法。因此,作者采用線性回歸探測分析(Alain & Bengio,2017;Akyürek et al.,2023)來尋找假設(shè)的 mesa 優(yōu)化算法的特征。 在圖 3 所示的深度線性自注意力 Transformer 上,我們可以看到兩個探針都可以線性解碼,解碼性能隨著序列長度和網(wǎng)絡(luò)深度的增加而增加。因此,基礎(chǔ)優(yōu)化發(fā)現(xiàn)了一種混合算法,該算法在原始 mesa-objective Lt (W) 的基礎(chǔ)上逐層下降,同時改進(jìn) mesa 優(yōu)化問題的條件數(shù)。這導(dǎo)致 mesa-objective Lt (W) 快速下降。此外可以看到性能隨著深度的增加而顯著提高。 因此可以認(rèn)為自回歸 mesa-objective Lt (W) 的快速下降是通過對更好的預(yù)處理數(shù)據(jù)進(jìn)行逐步(跨層)mesa 優(yōu)化來實現(xiàn)的。

850de534-5ad6-11ee-939d-92fbcf53809c.png

圖 3:對構(gòu)建的 token 輸入進(jìn)行逆向工程的多層 Transformer 訓(xùn)練。 這表明,如果 transformer 在構(gòu)建的 token 上進(jìn)行訓(xùn)練,它就會通過 mesa 優(yōu)化進(jìn)行預(yù)測。有趣的是,當(dāng)直接給出序列元素時,transformer 會自行通過對元素進(jìn)行分組來構(gòu)造 token,研究團(tuán)隊將其稱為「創(chuàng)建 mesa 數(shù)據(jù)集」。

851cacfe-5ad6-11ee-939d-92fbcf53809c.png

結(jié)論 該研究表明,當(dāng)在標(biāo)準(zhǔn)自回歸目標(biāo)下針對序列預(yù)測任務(wù)進(jìn)行訓(xùn)練時,Transformer 模型能夠開發(fā)基于梯度的推理算法。因此,在多任務(wù)、元學(xué)習(xí)設(shè)置下獲得的最新結(jié)果也可以轉(zhuǎn)化到傳統(tǒng)的自監(jiān)督 LLM 訓(xùn)練設(shè)置中。 此外,該研究還發(fā)現(xiàn)學(xué)得的自回歸推理算法可以在無需重新訓(xùn)練的情況下重新調(diào)整用途,以解決有監(jiān)督的上下文學(xué)習(xí)任務(wù),從而在單個統(tǒng)一框架內(nèi)解釋結(jié)果。

852a2d52-5ad6-11ee-939d-92fbcf53809c.png

那么,這些與上下文學(xué)習(xí)(in-context learning)有什么關(guān)系呢?該研究認(rèn)為:在自回歸序列任務(wù)上訓(xùn)練 transformer 后,它實現(xiàn)了適當(dāng)?shù)?mesa 優(yōu)化,因此可以進(jìn)行少樣本(few-shot)上下文學(xué)習(xí),而無需任何微調(diào)。

853b08c0-5ad6-11ee-939d-92fbcf53809c.png

該研究假設(shè) LLM 也存在 mesa 優(yōu)化,從而提高了其上下文學(xué)習(xí)能力。有趣的是,該研究還觀察到,為 LLM 有效調(diào)整 prompt 也可以帶來上下文學(xué)習(xí)能力的實質(zhì)性改進(jìn)。

85443fee-5ad6-11ee-939d-92fbcf53809c.png

855238ce-5ad6-11ee-939d-92fbcf53809c.png

感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。 參考內(nèi)容:https://www.reddit.com/r/MachineLearning/comments/16jc2su/r_uncovering_mesaoptimization_algorithms_in/https://twitter.com/oswaldjoh/status/1701873029100241241

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1813

    文章

    49806

    瀏覽量

    262195
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5592

    瀏覽量

    124023
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    12148
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    154

    瀏覽量

    6839
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3496

    瀏覽量

    5031

原文標(biāo)題:Transformer的上下文學(xué)習(xí)能力是哪來的?

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    大語言模型如何處理上下文窗口中的輸入

    本博客介紹了五個基本概念,闡述了大語言模型如何處理上下文窗口中的輸入。通過明確的例子和實踐中獲得的見解,本文介紹了多個與上下文窗口有關(guān)的基本概念,如詞元化、序列長度和注意力等。
    的頭像 發(fā)表于 12-03 13:48 ?285次閱讀
    大語言模型如何處理<b class='flag-5'>上下文</b>窗口中的輸入

    Transformer如何讓自動駕駛變得更聰明?

    ]自動駕駛中常提的Transformer本質(zhì)上是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最早在自然語言處理里火起來。與卷積神經(jīng)網(wǎng)絡(luò)(CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,Transformer能夠自動審視所有輸入信息,并動態(tài)判斷哪些部分更為關(guān)鍵,同時可以將這些重要信息有效地關(guān)聯(lián)起來。
    的頭像 發(fā)表于 11-19 18:17 ?2002次閱讀

    請問riscv中斷還需要軟件保存上下文和恢復(fù)嗎?

    以下是我拷貝的文檔里的說明,這個中斷處理還需要軟件來寫上下文保存和恢復(fù),在使用ARM核的單片機(jī)都不需要考慮這些的,使用過的小伙伴能解答嗎? 3.8. 進(jìn)出中斷的上下文保存和恢復(fù) RISC-V架構(gòu)
    發(fā)表于 10-20 09:56

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    徹底改變了自然語義處理的研究和應(yīng)用。它引入了自注意機(jī)制和位置編碼,能夠有效的捕捉輸入序列中的關(guān)聯(lián)信息,實現(xiàn)更好的上下文理解和建模。 Transformer 模型由一個編碼器和一個解碼器組成,是一種
    發(fā)表于 09-12 17:30

    自動駕駛中Transformer大模型會取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?3970次閱讀
    自動駕駛中<b class='flag-5'>Transformer</b>大模型會取代深度<b class='flag-5'>學(xué)習(xí)</b>嗎?

    鴻蒙NEXT-API19獲取上下文,在class中和ability中獲取上下文,API遷移示例-解決無法在EntryAbility中無法使用最新版

    摘要:隨著鴻蒙系統(tǒng)API升級至16版本(modelVersion5.1.1),多項API已廢棄。獲取上下文需使用UIContext,具體方法包括:在組件中使用getUIContext(),在類中使
    的頭像 發(fā)表于 07-01 10:57 ?629次閱讀
    鴻蒙NEXT-API19獲取<b class='flag-5'>上下文</b>,在class中和ability中獲取<b class='flag-5'>上下文</b>,API遷移示例-解決無法在EntryAbility中無法使用最新版

    Transformer架構(gòu)中編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據(jù)整個序列捕獲每個token的
    的頭像 發(fā)表于 06-10 14:27 ?850次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)中編碼器的工作流程

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1040次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)概述

    快手上線鴻蒙應(yīng)用高性能解決方案:數(shù)據(jù)反序列化性能提升90%

    近日,快手在Gitee平臺上線了鴻蒙應(yīng)用性能優(yōu)化解決方案“QuickTransformer”,該方案針對鴻蒙應(yīng)用開發(fā)中廣泛使用的三方庫“class-transformer”進(jìn)行了深度優(yōu)化,有效提升
    發(fā)表于 05-15 10:01

    如何應(yīng)對邊緣設(shè)備上部署GenAI的挑戰(zhàn)

    過去十年間,人工智能(AI)和機(jī)器學(xué)習(xí)(ML)領(lǐng)域發(fā)生了巨大的變化。卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)逐漸被Transformer和生成式人工智能(GenAI)所取代,這標(biāo)志著該領(lǐng)域進(jìn)入了一個全新的發(fā)展階段。這一轉(zhuǎn)變源于人們需要更準(zhǔn)確、高效且具備
    的頭像 發(fā)表于 04-30 13:48 ?1043次閱讀
    如何應(yīng)對邊緣設(shè)備上部署GenAI的挑戰(zhàn)

    S32K在AUTOSAR中使用CAT1 ISR,是否需要執(zhí)行上下文切換?

    如果我們在 AUTOSAR 中使用 CAT1 ISR,是否需要執(zhí)行上下文切換?另外,是否需要返回指令才能跳回到作系統(tǒng)?您有沒有帶有 CAT1 ISR 的 S32K3x4 微控制器的示例?
    發(fā)表于 03-27 07:34

    DeepSeek推出NSA機(jī)制,加速長上下文訓(xùn)練與推理

    的特性,專為超快速的長上下文訓(xùn)練和推理而設(shè)計。 NSA通過針對現(xiàn)代硬件的優(yōu)化設(shè)計,顯著加快了推理速度,并大幅度降低了預(yù)訓(xùn)練成本,同時保持了卓越的性能表現(xiàn)。這一機(jī)制在確保效率的同時,并未犧牲模型的準(zhǔn)確性或功能。 在廣泛的基準(zhǔn)測試、涉及長
    的頭像 發(fā)表于 02-19 14:01 ?948次閱讀

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設(shè)計初衷是為了解決自然語言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?5825次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

    transformer專用ASIC芯片Sohu說明

    2022年,我們打賭說transformer會統(tǒng)治世界。 我們花了兩年時間打造Sohu,這是世界上第一個用于transformer(ChatGPT中的“T”)的專用芯片。 將transformer
    的頭像 發(fā)表于 01-06 09:13 ?1717次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說明

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    方法 元學(xué)習(xí)+GPICL方法 零樣本能力 提供高性能,無需任務(wù)特定微調(diào)即可推廣到新任務(wù)。 零樣本性能較差,專注于通過上下文學(xué)習(xí)適應(yīng)任務(wù)。 可
    發(fā)表于 12-24 15:03