chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用較小的語言模型,并用少量樣本來微調(diào)語言模型的權(quán)重

深度學(xué)習自然語言處理 ? 來源:深度學(xué)習自然語言處理 ? 作者:魚羊 ? 2021-01-07 14:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2020年,GPT-3可謂火出了圈。

不僅講故事的本職工作做得風生水起,還跨界玩起了網(wǎng)頁設(shè)計、運維、下象棋……

不過,盡管表現(xiàn)驚艷,GPT-3背后到底是實實在在的1750億參數(shù),想要在實際應(yīng)用場景中落地,難度著實不小。

現(xiàn)在,針對這個問題,普林斯頓的陳丹琦、高天宇師徒和MIT博士生Adam Fisch在最新論文中提出,使用較小的語言模型,并用少量樣本來微調(diào)語言模型的權(quán)重。

4d534696-5036-11eb-8b86-12bb97331649.png

并且,實驗證明,這一名為LM-BFF(better few-shot fine-tuning fo language models)的方法相比于普通微調(diào)方法,性能最多可以提升30%。

詳情如何,一起往下看。

方法原理

首先,研究人員采用了基于提示的預(yù)測路線。

所謂基于提示的預(yù)測,是將下游任務(wù)視為一個有遮蓋(mask)的語言建模問題,模型會直接為給定的提示生成文本響應(yīng)。

4d7b70ee-5036-11eb-8b86-12bb97331649.png


這里要解決的問題,是尋找正確的提示。這既需要該領(lǐng)域的專業(yè)知識,也需要對語言模型內(nèi)部工作原理的理解。

在本文中,研究人員提出引入一個新的解碼目標來解決這個問題,即使用谷歌提出的T5模型,在指定的小樣本訓(xùn)練數(shù)據(jù)中自動生成提示。

4dc132be-5036-11eb-8b86-12bb97331649.png

其次,研究人員在每個輸入中,以額外上下文的形式添加了示例。

問題的關(guān)鍵在于,要有限考慮信息量大的示例,一方面,因為可用示例的數(shù)量會受到模型最大輸入長度的限制;另一方面,不同類型的大量隨機示例混雜在一起,會產(chǎn)生很長的上下文,不利于模型學(xué)習。

為此,研究人員開發(fā)了一種動態(tài)的、有選擇性的精細策略:對于每個輸入,從每一類中隨機抽取一個樣本,以創(chuàng)建多樣化的最小演示集。

另外,研究人員還設(shè)計了一種新的抽樣策略,將輸入與相似的樣本配對,以此為模型提供更多有價值的比較。

實驗結(jié)果

那么,這樣的小樣本學(xué)習方法能實現(xiàn)怎樣的效果?

研究人員在8個單句、7個句子對NLP任務(wù)上,對其進行了系統(tǒng)性評估,這些任務(wù)涵蓋分類和回歸。

4dec6b00-5036-11eb-8b86-12bb97331649.png

結(jié)果顯示:

基于提示的微調(diào)在很大程度上優(yōu)于標準微調(diào);

自動提示搜索能匹敵、甚至優(yōu)于手動提示;

加入示例對于微調(diào)而言很有效,并提高了少樣本學(xué)習的性能。

4ec58340-5036-11eb-8b86-12bb97331649.png

在K=16(即每一類樣本數(shù)為16)的情況下,從上表結(jié)果可以看到,該方法在所有任務(wù)中,平均能實現(xiàn)11%的性能增益,顯著優(yōu)于標準微調(diào)程序。在SNLI任務(wù)中,提升達到30%。

不過,該方法目前仍存在明顯的局限性,性能仍大大落后于采用大量樣本訓(xùn)練獲得的微調(diào)結(jié)果。

關(guān)于作者

論文有兩位共同一作。

高天宇,清華大學(xué)本科生特等獎學(xué)金獲得者,本科期間即發(fā)表4篇頂會論文,師從THUNLP實驗室的劉知遠副教授。

今年夏天,他本科畢業(yè)后赴普林斯頓攻讀博士,師從本文的另一位作者陳丹琦。

此前,量子位曾經(jīng)分享過他在寫論文、做實驗、與導(dǎo)師相處方面的經(jīng)驗。

Adam Fisch,MIT電氣工程與計算機科學(xué)專業(yè)在讀博士,是CSAIL和NLP研究小組的成員,主要研究方向是應(yīng)用于NLP的遷移學(xué)習和多任務(wù)學(xué)習。

他本科畢業(yè)于普林斯頓大學(xué),2015-2017年期間曾任Facebook AI研究院研究工程師

至于陳丹琦大神,想必大家已經(jīng)很熟悉了。她本科畢業(yè)于清華姚班,后于斯坦福大學(xué)拿下博士學(xué)位,2019年秋成為普林斯頓計算機科學(xué)系助理教授。

最后,該論文代碼即將開源,如果還想了解更多論文細節(jié),請戳文末論文鏈接詳讀~

傳送門

論文地址:

https://arxiv.org/abs/2012.15723v1

項目地址:

https://github.com/princeton-nlp/LM-BFF

責任編輯:xj

原文標題:【前沿】陳丹琦團隊最新論文:受GPT-3啟發(fā),用小樣本學(xué)習給語言模型做微調(diào),性能最高提升30%

文章出處:【微信公眾號:深度學(xué)習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10796
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    16097
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13656

原文標題:【前沿】陳丹琦團隊最新論文:受GPT-3啟發(fā),用小樣本學(xué)習給語言模型做微調(diào),性能最高提升30%

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    小白學(xué)大模型:從零實現(xiàn) LLM語言模型

    在當今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為一個熱門話題。這些模型通過學(xué)習大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?515次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實現(xiàn) LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺內(nèi)容相關(guān)的自然
    的頭像 發(fā)表于 03-17 15:32 ?4127次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析

    語言模型的解碼策略與關(guān)鍵優(yōu)化總結(jié)

    本文系統(tǒng)性地闡述了大型語言模型(LargeLanguageModels,LLMs)中的解碼策略技術(shù)原理及其實踐應(yīng)用。通過深入分析各類解碼算法的工作機制、性能特征和優(yōu)化方法,為研究者和工程師提供了全面
    的頭像 發(fā)表于 02-18 12:00 ?588次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的解碼策略與關(guān)鍵優(yōu)化總結(jié)

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1766次閱讀
    一文詳解視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調(diào)技術(shù)解讀

    集對模型進行進一步訓(xùn)練的過程。 大模型微調(diào)是利用預(yù)訓(xùn)練模型權(quán)重和特征,通過在新任務(wù)數(shù)據(jù)集上的訓(xùn)練,對
    發(fā)表于 01-14 16:51

    語言模型管理的作用

    要充分發(fā)揮語言模型的潛力,有效的語言模型管理非常重要。以下,是對語言模型管理作用的分析,由AI部
    的頭像 發(fā)表于 01-02 11:06 ?389次閱讀

    AI大語言模型開發(fā)步驟

    開發(fā)一個高效、準確的大語言模型是一個復(fù)雜且多階段的過程,涉及數(shù)據(jù)收集與預(yù)處理、模型架構(gòu)設(shè)計、訓(xùn)練與優(yōu)化、評估與調(diào)試等多個環(huán)節(jié)。接下來,AI部落小編為大家詳細闡述AI大語言
    的頭像 發(fā)表于 12-19 11:29 ?901次閱讀

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-06 10:28 ?528次閱讀

    語言模型開發(fā)語言是什么

    在人工智能領(lǐng)域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發(fā)語言和工具的支持。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-04 11:44 ?702次閱讀

    云端語言模型開發(fā)方法

    云端語言模型的開發(fā)是一個復(fù)雜而系統(tǒng)的過程,涉及數(shù)據(jù)準備、模型選擇、訓(xùn)練優(yōu)化、部署應(yīng)用等多個環(huán)節(jié)。下面,AI部落小編為您分享云端語言模型的開發(fā)
    的頭像 發(fā)表于 12-02 10:48 ?692次閱讀

    使用vLLM+OpenVINO加速大語言模型推理

    隨著大語言模型的廣泛應(yīng)用,模型的計算需求大幅提升,帶來推理時延高、資源消耗大等挑戰(zhàn)。
    的頭像 發(fā)表于 11-15 14:20 ?1431次閱讀
    使用vLLM+OpenVINO加速大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>推理

    語言模型如何開發(fā)

    語言模型的開發(fā)是一個復(fù)雜且細致的過程,涵蓋了數(shù)據(jù)準備、模型架構(gòu)設(shè)計、訓(xùn)練、微調(diào)和部署等多個階段。以下是對大語言
    的頭像 發(fā)表于 11-04 10:14 ?605次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習

    今天來學(xué)習大語言模型在自然語言理解方面的原理以及問答回復(fù)實現(xiàn)。 主要是基于深度學(xué)習和自然語言處理技術(shù)。 大語言
    發(fā)表于 08-02 11:03

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)篇

    今天開始學(xué)習《大語言模型應(yīng)用指南》第一篇——基礎(chǔ)篇,對于人工智能相關(guān)專業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀,但對于我還是有許多的知識點、專業(yè)術(shù)語比較陌生,需要網(wǎng)上搜索學(xué)習更多的資料才能理解書中
    發(fā)表于 07-25 14:33

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 俯瞰全書

    上周收到《大語言模型應(yīng)用指南》一書,非常高興,但工作項目繁忙,今天才品鑒體驗,感謝作者編寫了一部內(nèi)容豐富、理論應(yīng)用相結(jié)合、印刷精美的著作,也感謝電子發(fā)燒友論壇提供了一個讓我了解大語言模型
    發(fā)表于 07-21 13:35