chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微調(diào)前給預(yù)訓(xùn)練模型參數(shù)增加噪音提高效果的方法

深度學(xué)習(xí)自然語言處理 ? 來源:NLP工作站 ? 作者:劉聰NLP ? 2022-06-07 09:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

寫在前面

昨天看完NoisyTune論文,做好實驗就來了。一篇ACL2022通過微調(diào)前給預(yù)訓(xùn)練模型參數(shù)增加噪音提高預(yù)訓(xùn)練語言模型在下游任務(wù)的效果方法-NoisyTune,論文全稱《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better》。

paper地址:https://aclanthology.org/2022.acl-short.76.pdf

由于僅加兩行代碼就可以實現(xiàn),就在自己的數(shù)據(jù)上進行了實驗,發(fā)現(xiàn)確實有所提高,為此分享給大家;不過值得注意的是,「不同數(shù)據(jù)需要加入噪音的程度是不同」,需要自行調(diào)參。

模型

自2018年BERT模型橫空出世,預(yù)訓(xùn)練語言模型基本上已經(jīng)成為了自然語言處理領(lǐng)域的標(biāo)配,「pretrain+finetune」成為了主流方法,下游任務(wù)的效果與模型預(yù)訓(xùn)練息息相關(guān);然而由于預(yù)訓(xùn)練機制以及數(shù)據(jù)影響,導(dǎo)致預(yù)訓(xùn)練語言模型與下游任務(wù)存在一定的Gap,導(dǎo)致在finetune過程中,模型可能陷入局部最優(yōu)。

為了減輕上述問題,提出了NoisyTune方法,即,在finetune前加入給預(yù)訓(xùn)練模型的參數(shù)增加少量噪音,給原始模型增加一些擾動,從而提高預(yù)訓(xùn)練語言模型在下游任務(wù)的效果,如下圖所示,

43feda12-e589-11ec-ba43-dac502259ad0.png

通過矩陣級擾動(matrix-wise perturbing)方法來增加噪聲,定義預(yù)訓(xùn)練語言模型參數(shù)矩陣為,其中,表示模型中參數(shù)矩陣的個數(shù),擾動如下:

其中,表示從到范圍內(nèi)均勻分布的噪聲;表示控制噪聲強度的超參數(shù);表示標(biāo)準(zhǔn)差。

代碼實現(xiàn)如下:

forname,parainmodel.namedparameters():
model.statedict()[name][:]+=(torch.rand(para.size())?0.5)*noise_lambda*torch.std(para)

這種增加噪聲的方法,可以應(yīng)用到各種預(yù)訓(xùn)練語言模型中,可插拔且操作簡單。

如下表所示,在BERT、XLNET、RoBERTa和ELECTRA上均取得不錯的效果。

444e5060-e589-11ec-ba43-dac502259ad0.png

并且比較的四種不同增加噪聲的方法,發(fā)現(xiàn)在矩陣級均勻噪聲最優(yōu)。

448791e0-e589-11ec-ba43-dac502259ad0.png

在不同數(shù)據(jù)量下,NoisyTune方法相對于finetune均有所提高。

44bb1fec-e589-11ec-ba43-dac502259ad0.png

在不同噪聲強度下,效果提升不同,對于GLUE數(shù)據(jù)集,在0.1-0.15間為最佳。

44f1b2f0-e589-11ec-ba43-dac502259ad0.png

總結(jié)

蠻有意思的一篇論文,加入少量噪音,提高下游微調(diào)效果,并且可插拔方便易用,可以納入到技術(shù)庫中。

本人在自己的中文數(shù)據(jù)上做了一些實驗,發(fā)現(xiàn)結(jié)果也是有一些提高的,一般在0.3%-0.9%之間,但是噪聲強度在0.2時最佳,并且在噪聲強度小于0.1或大于0.25后,會比原始效果差。個人實驗結(jié)果,僅供參考。


審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 噪音
    +關(guān)注

    關(guān)注

    1

    文章

    172

    瀏覽量

    24592
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3819

    瀏覽量

    52269
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    630

    瀏覽量

    14724

原文標(biāo)題:ACL2022 | NoisyTune:微調(diào)前加入少量噪音可能會有意想不到的效果

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI大模型微調(diào)企業(yè)項目實戰(zhàn)課

    取非結(jié)構(gòu)化文本,通過去重、脫敏,最終轉(zhuǎn)化為符合大模型閱讀習(xí)慣的“指令-回復(fù)”對。幾千條高質(zhì)量、無矛盾的垂直行業(yè)數(shù)據(jù),其效果遠勝于幾萬條從網(wǎng)上爬取的劣質(zhì)問答。 第二步:精準(zhǔn)手術(shù)——參數(shù)高效
    發(fā)表于 04-16 18:48

    人工智能多模態(tài)與視覺大模型開發(fā)實戰(zhàn) - 2026必會

    提高數(shù)據(jù)的質(zhì)量和一致性,為后續(xù)的模型訓(xùn)練做好準(zhǔn)備。 模型訓(xùn)練是核心環(huán)節(jié),學(xué)員們將使用預(yù)
    發(fā)表于 04-15 16:06

    訓(xùn)練到推理:大模型算力需求的新拐點已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點主要集中在大模型訓(xùn)練所需的算力投入。一個萬億參數(shù)模型訓(xùn)練
    的頭像 發(fā)表于 02-05 16:07 ?1036次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點已至

    什么是大模型,智能體...?大模型100問,快速全面了解!

    一、概念篇1.什么是大模型?大模型是指參數(shù)規(guī)模巨大(通常達到數(shù)十億甚至萬億級別)、使用海量數(shù)據(jù)訓(xùn)練而成的人工智能模型。2.什么是大語言
    的頭像 發(fā)表于 02-02 16:36 ?1133次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    , batch_size=512, epochs=20)總結(jié) 這個核心算法中的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練過程,是用來對MNIST手寫數(shù)字圖像進行分類的。模型將圖像作為輸入,通過卷積和池化層提取圖像的特征,然后通過全連接層進行分類預(yù)測。訓(xùn)練
    發(fā)表于 10-22 07:03

    借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高顯存使用效率

    隨著模型規(guī)模邁入百億、千億甚至萬億參數(shù)級別,如何在有限顯存中“塞下”訓(xùn)練任務(wù),對研發(fā)和運維團隊都是巨大挑戰(zhàn)。NVIDIA Megatron-Core 作為流行的大模型
    的頭像 發(fā)表于 10-21 10:55 ?1401次閱讀
    借助NVIDIA Megatron-Core大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>框架<b class='flag-5'>提高</b>顯存使用效率

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來,機器人操作領(lǐng)域的VLA模型普遍基于跨本體機器人數(shù)據(jù)集預(yù)訓(xùn)練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導(dǎo)致統(tǒng)一訓(xùn)練困難;現(xiàn)
    的頭像 發(fā)表于 08-21 09:56 ?1224次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    利用自壓縮實現(xiàn)大型語言模型高效縮減

    隨著語言模型規(guī)模日益龐大,設(shè)備端推理變得越來越緩慢且耗能巨大。一個直接且效果出人意料的解決方案是剪除那些對任務(wù)貢獻甚微的完整通道(channel)。我們早期的研究提出了一種訓(xùn)練階段的方法
    的頭像 發(fā)表于 07-28 09:36 ?653次閱讀
    利用自壓縮實現(xiàn)大型語言<b class='flag-5'>模型</b><b class='flag-5'>高效</b>縮減

    模型推理顯存和計算量估計方法研究

    方法。 一、引言 大模型推理是指在已知輸入數(shù)據(jù)的情況下,通過深度學(xué)習(xí)模型進行預(yù)測或分類的過程。然而,大模型的推理過程對顯存和計算資源的需求較高,這
    發(fā)表于 07-03 19:43

    沐曦MXMACA軟件平臺在大模型訓(xùn)練方面的優(yōu)化效果

    在如今的人工智能浪潮中,大規(guī)模語言模型(上百億乃至千億參數(shù))正迅速改變著我們的工作和生活。然而,訓(xùn)練這些龐大的模型往往面臨“算力不足、顯存不夠用、通信太慢”等諸多挑戰(zhàn)。
    的頭像 發(fā)表于 07-03 14:09 ?2412次閱讀
    沐曦MXMACA軟件平臺在大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>方面的優(yōu)化<b class='flag-5'>效果</b>

    提高SEA模型PBNR計算精度的方法及策略

    方案即聲學(xué)包對整車噪聲傳遞的影響,同時克服了NR方法中由于聲源特性、聲源處麥克風(fēng)安裝位置等因素測試帶來的不利影響,PBNR已廣泛用應(yīng)用于整車SEA模型對標(biāo)及聲學(xué)包目標(biāo)的設(shè)定及分解工作中,故而在數(shù)字開發(fā)階段,
    的頭像 發(fā)表于 06-30 09:30 ?1549次閱讀
    <b class='flag-5'>提高</b>SEA<b class='flag-5'>模型</b>PBNR計算精度的<b class='flag-5'>方法</b>及策略

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎?

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎
    發(fā)表于 06-23 07:38

    運行kmodel模型驗證一直報錯怎么解決?

    我這運行kmodel模型驗證一直報錯,所以沒法做kmodel模型好壞驗證,不知道怎么解決這個問題,重新訓(xùn)練一個kmodel模型會和拿相同pt訓(xùn)練
    發(fā)表于 06-10 08:02

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    億個參數(shù)的混合專家模型(MoE) ,每個token(模型處理文本的基本單位)激活 370 億個參數(shù)。該模型在 14.8 萬億個高質(zhì)量 tok
    發(fā)表于 06-09 14:38

    電機常見的噪音、振動問題及解決方法

    ,甚至引發(fā)安全隱患。本文將系統(tǒng)分析電機常見的噪音和振動問題,并提供切實可行的解決方法。 ? 一、電機噪音問題及解決方法 電機噪音主要來源于電
    的頭像 發(fā)表于 06-08 10:25 ?4402次閱讀