chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何更高效地使用預(yù)訓(xùn)練語(yǔ)言模型

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:夕小瑤的賣萌屋 ? 作者:小偉 ? 2022-07-08 11:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

概覽

本文對(duì)任務(wù)低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是預(yù)訓(xùn)練模型的參數(shù)實(shí)在是太多了,很難找到這么多參數(shù)的低維本征子空間。作者基于之前的工作提出了一個(gè)基本的假設(shè):預(yù)訓(xùn)練模型在不同下游任務(wù)上學(xué)習(xí)的過(guò)程,可以被重新參數(shù)化(reparameterized)為在同一個(gè)低維本征子空間上的優(yōu)化過(guò)程。如下圖所示,模型在不同的任務(wù)上學(xué)習(xí)的參數(shù)雖然不同,但這些參數(shù)共享了同一個(gè)低維本征子空間。

c5318178-ed60-11ec-ba43-dac502259ad0.png

基于這一假設(shè),作者提出了探索公共低維本征子空間的方法:intrinsic prompt tuning (IPT)。

IPT由兩個(gè)階段組成:

Multi-task Subspace Finding (MSF):尋找多個(gè)任務(wù)的公共子空間,這是一個(gè)低維的、更為本征的一個(gè)空間

Intrinsic Subspace Tuning (IST):在找到的公共本征子空間上進(jìn)行模型優(yōu)化

下圖展示了 IPT 與 fine-tuning 和 prompt tuning 的對(duì)比。

c5542552-ed60-11ec-ba43-dac502259ad0.png

下面我們具體來(lái)了解一下IPT的兩個(gè)階段

IPT

作者使用intrinsic prompt tuning (IPT)來(lái)驗(yàn)證本文的基本假設(shè): 預(yù)訓(xùn)練模型對(duì)多個(gè)不同下游任務(wù)的學(xué)習(xí)可以被重新參數(shù)化為在同一個(gè)低維本征子空間上的優(yōu)化。

第一個(gè)階段是multi-task subspace finding (MSF)。

1. 尋找公共本征子空間(MSF)

MSF階段旨在通過(guò)對(duì)多個(gè)任務(wù)進(jìn)行學(xué)習(xí),來(lái)找到公共的低維本征子空間。如上圖所示,本質(zhì)上就是在學(xué)習(xí)一個(gè)自編碼器

我們用 來(lái)代表自編碼器的Encoder部分(上圖中處于下方的梯形),用 來(lái)代表自編碼器的Decoder部分(上圖中處于上方的梯形),那么自編碼器會(huì)先用把Prompt參數(shù)映射為一個(gè)低維(維)的向量(向量所在的維空間就是我們想要的低維本征子空間),然后再用把該低維向量重新映射回原始的prompt空間,得到 這樣我們就可以使用 和 的距離來(lái)計(jì)算自編碼器的重建loss ,形式化表述就是:

另外,使用自編碼器來(lái)學(xué)習(xí)公共低維本征子空間的最終目的還是為了解決多個(gè)任務(wù),所以作者引入了面向任務(wù)的語(yǔ)言模型loss 來(lái)提供任務(wù)相關(guān)的監(jiān)督(例如圖中模型生成的結(jié)果"positive"和正確標(biāo)簽之間的交叉熵)。那么MSF階段最終的loss就是:

其中 代表 和 的參數(shù),這也是我們?cè)贛SF階段要學(xué)習(xí)的參數(shù)。

2. 本征子空間優(yōu)化(IST)

在MSF階段中,我們通過(guò)對(duì)多個(gè)任務(wù)的學(xué)習(xí)找到了維的公共本征子空間,然后就進(jìn)入了第二個(gè)階段IST。在這一階段中,我們想評(píng)價(jià)我們?cè)贛SF階段中找到的低維本征子空間是不是能夠很好的泛化到 (a) MSF階段訓(xùn)練過(guò)的任務(wù)的新數(shù)據(jù),以及 (b) MSF階段沒(méi)有訓(xùn)練過(guò)的任務(wù)。如果該低維本征子空間在這兩種情況下都有比較好的泛化性能的話,那么在我們?cè)谝欢ǔ潭壬暇统晒Φ卣业搅讼胍谋菊髯涌臻g。

在本階段中,如上圖 所示, 我們只保留自編碼器的Decoder部分并凍結(jié)它的參數(shù)。對(duì)于每個(gè)測(cè)試任務(wù),我們只微調(diào)本征子空間中的個(gè)自由參數(shù) , 會(huì)將解碼回原始的prompt空間中來(lái)計(jì)算loss:

實(shí)驗(yàn)

作者使用了120個(gè)few-shot任務(wù)來(lái)進(jìn)行實(shí)驗(yàn),并進(jìn)行了三種不同的訓(xùn)練-測(cè)試任務(wù)劃分

random: 隨機(jī)選擇100個(gè)任務(wù)作為訓(xùn)練任務(wù),其余20個(gè)任務(wù)作為測(cè)試任務(wù)

non-cls: 隨機(jī)選擇非分類任務(wù)中的35作為訓(xùn)練任務(wù),其余所有任務(wù)作為測(cè)試任務(wù)

cls: 隨機(jī)選擇分類任務(wù)中的35個(gè)作為訓(xùn)練任務(wù),其余所有任務(wù)作為測(cè)試任務(wù)

同時(shí),對(duì)每一種任務(wù)劃分,作者進(jìn)行了5種不同的實(shí)驗(yàn)

: 在MSF階段,直接使用學(xué)習(xí)到的低維本征子空間來(lái)評(píng)估訓(xùn)練任務(wù)在訓(xùn)練數(shù)據(jù)上的性能

: 在MSF階段,直接使用學(xué)習(xí)到的低維本征子空間來(lái)評(píng)估測(cè)試任務(wù)(0-shot)的泛化性能

: 在IST階段,微調(diào)學(xué)習(xí)到的低維本征子空間來(lái)評(píng)估訓(xùn)練任務(wù)在訓(xùn)練數(shù)據(jù)上的性能

: 在IST階段,微調(diào)學(xué)習(xí)到的低維本征子空間來(lái)評(píng)估訓(xùn)練任務(wù)在新數(shù)據(jù)上的泛化性能

: 在IST階段,微調(diào)學(xué)習(xí)到的低維本征子空間來(lái)評(píng)估測(cè)試任務(wù)的泛化性能

c594f0fa-ed60-11ec-ba43-dac502259ad0.png

整體的實(shí)驗(yàn)結(jié)果如上圖所示,作者通過(guò)分析不同實(shí)驗(yàn)的結(jié)果,得出了一些比較重要的結(jié)論:

在random劃分中,僅僅微調(diào)低維本征子空間中的5個(gè)自由參數(shù),就可以分別獲得full prompt tuning 87%(訓(xùn)練過(guò)的任務(wù),不同訓(xùn)練數(shù)據(jù))以及65%(未訓(xùn)練過(guò)的任務(wù))的性能,這證明我們?cè)贛SF階段中找到的低維本征子空間是比較有效的。但從另一個(gè)方面來(lái)講,使用低維本征子空間無(wú)法獲得和full prompt tuning相當(dāng)?shù)男阅?,所以我們不能直接得出預(yù)訓(xùn)練模型對(duì)多個(gè)任務(wù)的學(xué)習(xí)可以被重新參數(shù)化為在完全相同的子空間中的優(yōu)化的結(jié)論。

訓(xùn)練-測(cè)試任務(wù)的劃分會(huì)對(duì)結(jié)果有很大的影響。比如在cls劃分中,訓(xùn)練時(shí)找到的本征子空間可以在分類的測(cè)試任務(wù)上有比較合理的表現(xiàn),但在非分類的測(cè)試任務(wù)上表現(xiàn)很差。

隨著MSF階段中訓(xùn)練任務(wù)數(shù)量的增加,找到的本征子空間的泛化能力會(huì)有所提高。這反映了增加MSF階段中訓(xùn)練任務(wù)的覆蓋范圍和多樣性可以幫助IPT找到更通用的本征子空間。

結(jié)論

本文設(shè)計(jì)了IPT框架來(lái)驗(yàn)證提出的假設(shè): 預(yù)訓(xùn)練模型對(duì)多個(gè)不同下游任務(wù)的學(xué)習(xí)可以被重新參數(shù)化為在同一個(gè)低維本征子空間上的優(yōu)化。詳盡的實(shí)驗(yàn)為假設(shè)提供了一定的積極證據(jù),也幫助大家對(duì)如何更高效地使用預(yù)訓(xùn)練語(yǔ)言模型有了更好的了解。

思考

雖然文章中的實(shí)驗(yàn)結(jié)果不能直接驗(yàn)證“預(yù)訓(xùn)練模型對(duì)多個(gè)任務(wù)的學(xué)習(xí)可以被重新參數(shù)化為在完全相同的子空間中的優(yōu)化”這一假設(shè)是完全正確的,但起碼它證明了各種任務(wù)重參數(shù)化后的低維子空間是有比較大的交集的,而且我們可以通過(guò)MSF來(lái)找到這個(gè)交集。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3951

    瀏覽量

    142587

原文標(biāo)題:Prompt Learning | 五個(gè)參數(shù)解決下游任務(wù) fine-tuning

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    什么是大模型,智能體...?大模型100問(wèn),快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語(yǔ)言。大語(yǔ)言模型通過(guò)“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁(yè)、文章等)進(jìn)行預(yù)
    的頭像 發(fā)表于 02-02 16:36 ?888次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問(wèn),快速全面了解!

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)。我們采用jupyter notebook作為開(kāi)發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是訓(xùn)練一個(gè)手寫數(shù)字識(shí)
    發(fā)表于 10-22 07:03

    借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高顯存使用效率

    隨著模型規(guī)模邁入百億、千億甚至萬(wàn)億參數(shù)級(jí)別,如何在有限顯存中“塞下”訓(xùn)練任務(wù),對(duì)研發(fā)和運(yùn)維團(tuán)隊(duì)都是巨大挑戰(zhàn)。NVIDIA Megatron-Core 作為流行的大模型訓(xùn)練框架,提供了靈
    的頭像 發(fā)表于 10-21 10:55 ?1145次閱讀
    借助NVIDIA Megatron-Core大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>框架提高顯存使用效率

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來(lái),機(jī)器人操作領(lǐng)域的VLA模型普遍基于跨本體機(jī)器人數(shù)據(jù)集預(yù)訓(xùn)練,這類方法存在兩大局限:不同機(jī)器人本體和動(dòng)作空間的差異導(dǎo)致統(tǒng)一訓(xùn)練困難;現(xiàn)有大規(guī)模機(jī)器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得
    的頭像 發(fā)表于 08-21 09:56 ?1088次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    利用自壓縮實(shí)現(xiàn)大型語(yǔ)言模型高效縮減

    隨著語(yǔ)言模型規(guī)模日益龐大,設(shè)備端推理變得越來(lái)越緩慢且耗能巨大。一個(gè)直接且效果出人意料的解決方案是剪除那些對(duì)任務(wù)貢獻(xiàn)甚微的完整通道(channel)。我們?cè)缙诘难芯刻岢隽艘环N訓(xùn)練階段的方法——自壓
    的頭像 發(fā)表于 07-28 09:36 ?551次閱讀
    利用自壓縮實(shí)現(xiàn)大型<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b><b class='flag-5'>高效</b>縮減

    龍芯中科與文心系列模型開(kāi)展深度技術(shù)合作

    ”解決方案。 強(qiáng)強(qiáng)聯(lián)合!自主架構(gòu)賦能大模型訓(xùn)練 文心大模型 文心4.5系列模型均使用飛槳深度學(xué)習(xí)框架進(jìn)行高效
    的頭像 發(fā)表于 07-02 16:53 ?1345次閱讀

    兆芯率先展開(kāi)文心系列模型深度技術(shù)合作

    對(duì)文心系列大模型的快速適配、無(wú)縫銜接。 ? 文心大模型 ? 文心4.5系列開(kāi)源模型共10款,均使用飛漿深度學(xué)習(xí)框架進(jìn)行高效訓(xùn)練、推理和部署。
    的頭像 發(fā)表于 07-01 10:49 ?967次閱讀

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎?

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎
    發(fā)表于 06-23 07:38

    如何高效訓(xùn)練AI模型?這些常用工具你必須知道!

    特定領(lǐng)域的中小型模型。這類模型針對(duì)垂直領(lǐng)域,性價(jià)比更高,在特定場(chǎng)景下能以較低資源實(shí)現(xiàn)高準(zhǔn)確率的專項(xiàng)任務(wù)。例如在邊緣計(jì)算領(lǐng)域,模型推理所需資源遠(yuǎn)少于訓(xùn)
    的頭像 發(fā)表于 04-17 16:43 ?2239次閱讀
    如何<b class='flag-5'>高效</b><b class='flag-5'>訓(xùn)練</b>AI<b class='flag-5'>模型</b>?這些常用工具你必須知道!

    請(qǐng)問(wèn)如何在imx8mplus上部署和運(yùn)行YOLOv5訓(xùn)練模型?

    我正在從事 imx8mplus yocto 項(xiàng)目。我已經(jīng)在自定義數(shù)據(jù)集上的 YOLOv5 上訓(xùn)練了對(duì)象檢測(cè)模型。它在 ubuntu 電腦上運(yùn)行良好?,F(xiàn)在我想在我的 imx8mplus 板上運(yùn)行該模型
    發(fā)表于 03-25 07:23

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)一步講解更多的技術(shù)細(xì)節(jié)。本文主要針對(duì)大語(yǔ)言
    的頭像 發(fā)表于 03-21 18:24 ?4288次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    利用RAKsmart服務(wù)器托管AI模型訓(xùn)練的優(yōu)勢(shì)

    AI模型訓(xùn)練需要強(qiáng)大的計(jì)算資源、高效的存儲(chǔ)和穩(wěn)定的網(wǎng)絡(luò)支持,這對(duì)服務(wù)器的性能提出了較高要求。而RAKsmart服務(wù)器憑借其核心優(yōu)勢(shì),成為托管AI模型
    的頭像 發(fā)表于 03-18 10:08 ?686次閱讀

    憶聯(lián)PCIe 5.0 SSD支撐大模型全流程訓(xùn)練

    到高頻參數(shù)迭代,從模型微調(diào)到實(shí)時(shí)推理,大模型運(yùn)行的每一個(gè)環(huán)節(jié)都需存儲(chǔ)設(shè)備在“硬指標(biāo)”與“軟實(shí)力”間達(dá)成平衡。從產(chǎn)品可靠性視角出發(fā),憶聯(lián)新一代PCIe Gen5 ESSD UH812a/UH832a可高效支撐大
    的頭像 發(fā)表于 03-11 10:26 ?1137次閱讀
    憶聯(lián)PCIe 5.0 SSD支撐大<b class='flag-5'>模型</b>全流程<b class='flag-5'>訓(xùn)練</b>

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理?

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦,試了好幾個(gè)模型壓縮了也不行,ram占用過(guò)大,有無(wú)解決方案?
    發(fā)表于 03-11 07:18

    從Open Model Zoo下載的FastSeg大型公共預(yù)訓(xùn)練模型,無(wú)法導(dǎo)入名稱是怎么回事?

    從 Open Model Zoo 下載的 FastSeg 大型公共預(yù)訓(xùn)練模型。 運(yùn)行 converter.py 以將 FastSeg 大型模型轉(zhuǎn)換為中間表示 (IR): pyth
    發(fā)表于 03-05 07:22