chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

應(yīng)用于任意預(yù)訓(xùn)練模型的prompt learning模型—LM-BFF

自然語言處理愛好者 ? 來源:AI部落聯(lián)盟 ? 作者:JasonCai ? 2021-08-16 11:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近又出了個(gè)比較吸引人眼球的Prompt Learning,甚至該方法還被稱之為NLP的“第四范式”,具體有哪幾項(xiàng)請參考以下鏈接:

綜述文章:https://arxiv.org/pdf/2107.13586.pdf

相關(guān)資源:http://pretrain.nlpedia.ai

Part1什么是Prompt Learning

從BERT誕生開始,使用下游任務(wù)數(shù)據(jù)微調(diào)預(yù)訓(xùn)練語言模型 (LM)已成為 NLP 領(lǐng)域的通用做法。直到GPT-3模型首先將自然語言的提示信息(prompt)和任務(wù)示例(demonstration)作為上下文輸入給GPT-3,使得GPT-3只需要少數(shù)的幾個(gè)樣本,不需要訓(xùn)練底層的參數(shù)便能夠處理任務(wù)。應(yīng)該是受到這一做法的啟發(fā),目前很多研究聚焦在Prompt Learning上,只為了更好的激發(fā)語言模型的潛能。

在了解Prompt Learning之前,首先我們要知道什么是prompt。prompt是提示的意思,也就是說需要提示模型我們想讓它干什么。通常在GPT-3中,我們輸入一段描述,再加上“翻譯”或者“問答”的prompt,那么GPT-3會生成相應(yīng)的結(jié)果。

最近該玩法在NLU中也得到了應(yīng)用,比如情感分類任務(wù),給定一句話“I missed the bus today.”,在其之后添加一個(gè)prompt:“I felt so __”,之后讓語言模型用一個(gè)情感類的詞進(jìn)行完型填空,再將填空的詞語映射到標(biāo)簽,這樣一來就能夠解決分類任務(wù)了。

大家發(fā)現(xiàn)沒有,這樣一來減少了訓(xùn)練和測試階段之間的gap,因?yàn)槲覀冊陬A(yù)訓(xùn)練的時(shí)候使用的MLM任務(wù)就是一個(gè)完型填空任務(wù),通常使用分類任務(wù)fine-tuning模型的時(shí)候需要加一個(gè)hidden_size * label_size的FFN,還得專門去訓(xùn)練這個(gè)FFN的參數(shù)。但是如果使用Prompt Learning的方式,就省略了這一步了。這樣一來豈不是不用花大力氣訓(xùn)練模型了?哈哈是的,很多研究證明Prompt Learning在小樣本(few-shot)場景下很有效。

Part2Few-shot Learner

論文標(biāo)題:Making Pre-trained Language Models Better Few-shot Learners

論文來源:ACL2021

論文鏈接:https://arxiv.org/pdf/2012.15723.pdf

論文代碼:https://github.com/princeton-nlp/LM-BFF

本文主要有兩個(gè)貢獻(xiàn)點(diǎn):

(1)基于提示(prompt)進(jìn)行微調(diào),關(guān)鍵是如何自動(dòng)化生成提示模板;

(2)將樣本示例以上下文的形式添加到每個(gè)輸入中,關(guān)鍵是如何對示例進(jìn)行采樣;

1prompt-based fine-tuning

之前說過GPT-3模型基于prompt生成文本。受到該啟發(fā)本文提出了一種可以應(yīng)用于任意預(yù)訓(xùn)練模型的prompt learning模型——LM-BFF(小樣本微調(diào)預(yù)訓(xùn)練模型)。

9d8d181e-fd9a-11eb-9bcf-12bb97331649.png

從上圖可以看出在預(yù)訓(xùn)練的時(shí)候使用的MLM任務(wù)就是一個(gè)完型填空任務(wù),在分類任務(wù)中微調(diào)的時(shí)候需要加一個(gè)hidden_size * label_size的FFN,微調(diào)的過程需要訓(xùn)練這個(gè)FFN的參數(shù)。在使用Prompt Learning的方式的時(shí)候省略了這一步。這樣一來就不用花大力氣訓(xùn)練模型了,而且該方法減少了訓(xùn)練和測試階段之間的gap,在小樣本(few-shot)場景下很有效。

在具體的實(shí)驗(yàn)過程中,作者發(fā)現(xiàn)使用不同的模板或不同的標(biāo)簽詞進(jìn)行微調(diào)得到的效果是不同的,如下圖所示:

9dda6e0c-fd9a-11eb-9bcf-12bb97331649.png

比如對于同一個(gè)標(biāo)簽詞,如果使用的prompt的模板不同(替換了某個(gè)單詞或者刪除某一個(gè)標(biāo)點(diǎn)符號),得到的結(jié)果會有較大的波動(dòng);而且當(dāng)選擇不同的標(biāo)簽詞時(shí),對預(yù)測的結(jié)果也會產(chǎn)生影響。這是由于人工設(shè)計(jì)模板和標(biāo)簽詞時(shí)候和模型本身具有的gap帶來的缺陷。因此作者提出一種自動(dòng)創(chuàng)建模板的方法。

2Automatic Prompt Generation

Prompt的自動(dòng)生成又分為了兩個(gè)部分(label的生成和模板的生成):

Label Generation

這個(gè)部分主要分成3步:

(1)首先在訓(xùn)練集中,針對未經(jīng)過微調(diào)的語言模型,對于每個(gè)label都找到使其條件概率最大Topk個(gè)單詞;

9e0efc26-fd9a-11eb-9bcf-12bb97331649.png

(2)綜合每個(gè)類別下的候選標(biāo)簽詞,然后找出使得訓(xùn)練集正確率最大的top-n個(gè)分配方式;

(3)使用dev集對模型進(jìn)行微調(diào),從n個(gè)分配方式中選擇最佳的一個(gè)標(biāo)簽詞,構(gòu)建標(biāo)簽映射關(guān)系M。

Prompt Generation

模板的生成則是使用的T5模型,固定標(biāo)簽詞,生成固定模板。

9e50d790-fd9a-11eb-9bcf-12bb97331649.png

整體過程如下所示:

Fine-tuning with Demonstration

在GPT-3中,微調(diào)的時(shí)候從訓(xùn)練集中隨機(jī)抽取32個(gè)示例,以上下文的形式添加到每個(gè)輸入中;

這種方式的缺陷在于:樣本示例的數(shù)量會受到模型最大輸入長度的限制;不同類型的大量隨機(jī)示例混雜在一起,會產(chǎn)生很長的上下文,不利于模型學(xué)習(xí)。

LM-BFF采用2種簡單的方式進(jìn)行了改進(jìn):

對于每個(gè)輸入,從每個(gè)類別中隨機(jī)采樣一個(gè)樣本示例,最終將所有類別下的采樣示例進(jìn)行拼接輸入;

對于每個(gè)輸入,在每個(gè)類別中,通過與Sentence-BERT進(jìn)行相似度計(jì)算、并從排序得分的top50%中隨機(jī)選擇一個(gè)樣本示例。

Results

本文提出了一種簡單而又有效的小樣本微調(diào)方法——LM-BFF。主要包括2部分:

采用提示自動(dòng)構(gòu)建方式來進(jìn)行「基于模板的微調(diào)方法」。

動(dòng)態(tài)選擇樣本示例,作為輸入的上下文。但LM-BFF也有以下缺陷:

LM-BFF仍落后基于全量標(biāo)注數(shù)據(jù)的標(biāo)準(zhǔn)微調(diào)方法(PS:廢話,數(shù)據(jù)目前還是越多好~)

LM-BFF自動(dòng)構(gòu)建提示的方法雖然有效,但擴(kuò)展搜索空間在現(xiàn)實(shí)應(yīng)用中仍是一個(gè)巨大挑戰(zhàn);

LM-BFF僅支持幾種特定的任務(wù):1)能自然轉(zhuǎn)化為「空白填空」問題,如結(jié)構(gòu)化預(yù)測的NER任務(wù)可能就不適合;2)句子輸入不要太長;3)不要包含過多的類別;其中2)和3)可以在長距離語言模型中進(jìn)行改善。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    16790
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23243

原文標(biāo)題:Prompt Learning-使用模板激發(fā)語言模型潛能

文章出處:【微信號:NLP_lover,微信公眾號:自然語言處理愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    模型。 我們使用MNIST數(shù)據(jù)集,訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,用于手寫數(shù)字識別。一旦模型訓(xùn)練
    發(fā)表于 10-22 07:03

    我如何用Prompt工程將大模型調(diào)教成風(fēng)控專家

    波折、頓悟和驚喜。 今天,我想復(fù)盤整個(gè)過程,分享我如何通過一套循序漸進(jìn)的“Prompt工程心法”,將一個(gè)“什么都懂一點(diǎn),但什么都不精”的通用大模型,一步步調(diào)教成能夠精準(zhǔn)識別復(fù)雜電商風(fēng)控風(fēng)險(xiǎn)的“AI專家”。 一、 引言:當(dāng)算
    的頭像 發(fā)表于 09-08 14:22 ?355次閱讀
    我如何用<b class='flag-5'>Prompt</b>工程將大<b class='flag-5'>模型</b>調(diào)教成風(fēng)控專家

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來,機(jī)器人操作領(lǐng)域的VLA模型普遍基于跨本體機(jī)器人數(shù)據(jù)集預(yù)訓(xùn)練,這類方法存在兩大局限:不同機(jī)器人本體和動(dòng)作空間的差異導(dǎo)致統(tǒng)一訓(xùn)練困難;現(xiàn)有大規(guī)模機(jī)器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得
    的頭像 發(fā)表于 08-21 09:56 ?939次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    如何進(jìn)行YOLO模型轉(zhuǎn)換?

    我目前使用的轉(zhuǎn)模型代碼如下 from ultralytics import YOLOimport cv2import timeimport nncaseimport# 加載預(yù)訓(xùn)練的YOLO模型
    發(fā)表于 08-14 06:03

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎?

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎
    發(fā)表于 06-23 07:38

    模型時(shí)代的深度學(xué)習(xí)框架

    量是約為 25.63M,在ImageNet1K數(shù)據(jù)集上,使用單張消費(fèi)類顯卡 RTX-4090只需大約35~40個(gè)小時(shí) ,即可完成ResNet50模型預(yù)訓(xùn)練。在 大模型時(shí)代 ,由于大
    的頭像 發(fā)表于 04-25 11:43 ?765次閱讀
    大<b class='flag-5'>模型</b>時(shí)代的深度學(xué)習(xí)框架

    請問如何在imx8mplus上部署和運(yùn)行YOLOv5訓(xùn)練模型?

    我正在從事 imx8mplus yocto 項(xiàng)目。我已經(jīng)在自定義數(shù)據(jù)集上的 YOLOv5 上訓(xùn)練了對象檢測模型。它在 ubuntu 電腦上運(yùn)行良好?,F(xiàn)在我想在我的 imx8mplus 板上運(yùn)行該模型
    發(fā)表于 03-25 07:23

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)一步講解更多的技術(shù)細(xì)節(jié)。本文主要針對大語言模型
    的頭像 發(fā)表于 03-21 18:24 ?4061次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    數(shù)據(jù)標(biāo)注服務(wù)—奠定大模型訓(xùn)練的數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,數(shù)據(jù)標(biāo)注承擔(dān)著將原始數(shù)據(jù)轉(zhuǎn)化為機(jī)器可理解、可學(xué)
    的頭像 發(fā)表于 03-21 10:30 ?2702次閱讀

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理?

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦,試了好幾個(gè)模型壓縮了也不行,ram占用過大,有無解決方案?
    發(fā)表于 03-11 07:18

    從Open Model Zoo下載的FastSeg大型公共預(yù)訓(xùn)練模型,無法導(dǎo)入名稱是怎么回事?

    從 Open Model Zoo 下載的 FastSeg 大型公共預(yù)訓(xùn)練模型。 運(yùn)行 converter.py 以將 FastSeg 大型模型轉(zhuǎn)換為中間表示 (IR): pyth
    發(fā)表于 03-05 07:22

    為什么無法使用Dla_compiler在OpenVINO?中編譯用于FPGA的IR模型

    導(dǎo)入了預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。 使用模型優(yōu)化器轉(zhuǎn)換為 IR 模型: mo --saved_model_dir \"{path_savedMod
    發(fā)表于 03-05 06:00

    小白學(xué)大模型訓(xùn)練大語言模型的深度指南

    在當(dāng)今人工智能飛速發(fā)展的時(shí)代,大型語言模型(LLMs)正以其強(qiáng)大的語言理解和生成能力,改變著我們的生活和工作方式。在最近的一項(xiàng)研究中,科學(xué)家們?yōu)榱松钊肓私馊绾胃咝У?b class='flag-5'>訓(xùn)練大型語言模型,進(jìn)行了超過
    的頭像 發(fā)表于 03-03 11:51 ?1335次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:<b class='flag-5'>訓(xùn)練</b>大語言<b class='flag-5'>模型</b>的深度指南

    用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 之前我們分享了《從零開始訓(xùn)練一個(gè)大語言模型需要投資多少錢》,其中高昂的預(yù)訓(xùn)練費(fèi)用讓許多對大模型
    的頭像 發(fā)表于 02-19 16:10 ?2279次閱讀
    用PaddleNLP在4060單卡上實(shí)踐大<b class='flag-5'>模型</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>技術(shù)

    騰訊公布大語言模型訓(xùn)練新專利

    近日,騰訊科技(深圳)有限公司公布了一項(xiàng)名為“大語言模型訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)”的新專利。該專利的公布,標(biāo)志著騰訊在大語言模型訓(xùn)練領(lǐng)域取得了新的突破。 據(jù)專利摘要顯示,
    的頭像 發(fā)表于 02-10 09:37 ?820次閱讀