chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

文本分類任務(wù)的Bert微調(diào)trick大全

自然語言處理愛好者 ? 來源:ChallengeHub ? 作者: 致Great ? 2021-07-18 09:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1

前言

大家現(xiàn)在打比賽對預(yù)訓練模型非常喜愛,基本上作為NLP比賽基線首選(圖像分類也有預(yù)訓練模型)。預(yù)訓練模型雖然很強,可能通過簡單的微調(diào)就能給我們帶來很大提升,但是大家會發(fā)現(xiàn)比賽做到后期,bert等預(yù)訓練模型煉丹一定程度的時候很難有所提升,分數(shù)達到了瓶頸,這個時候需要針對具體的任務(wù)如何進行微調(diào)使用,就涉及到了考經(jīng)驗積累的tricks。

這篇論文做了非常大的充足實驗,為我們提供了寶貴的BERT微調(diào)經(jīng)驗及方法論,當需要應(yīng)用BERT到具體的現(xiàn)實任務(wù)上時,可以參照這篇論文提供的調(diào)參路線進行優(yōu)化,我在NLP比賽中也屢試不爽,總有一個trick是你的菜,推薦大家讀一讀這篇論文!

2

論文摘要

這篇論文的主要目的在于在文本分類任務(wù)上探索不同的BERT微調(diào)方法并提供一種通用的BERT微調(diào)解決方法。這篇論文從三種路線進行了探索:(1) BERT自身的微調(diào)策略,包括長文本處理、學習率、不同層的選擇等方法;(2) 目標任務(wù)內(nèi)、領(lǐng)域內(nèi)及跨領(lǐng)域的進一步預(yù)訓練BERT;(3) 多任務(wù)學習。微調(diào)后的BERT在七個英文數(shù)據(jù)集及搜狗中文數(shù)據(jù)集上取得了當前最優(yōu)的結(jié)果。有興趣的朋友可以點擊上面的實驗代碼,跑一跑玩一玩~

3

論文背景與研究動機

文本分了是NLP中非常經(jīng)典的任務(wù),就是判斷給定的一個文本所屬的具體類別,比如判斷文本情感是正向還是負向。盡管已經(jīng)有相關(guān)的系研究工作表明基于大語料預(yù)訓練模型可以對文本分類以及其他NLP任務(wù)有非常不錯的效果收益和提升,這樣做的一個非常大的好處我們不需要從頭開始訓練一個新的模型,節(jié)省了很大資源和時間。

一種常見的預(yù)訓練模型就是我們常見的詞嵌入,比如Word2Vec,Glove向量,或者一詞多義詞向量模型Cove和ELMo,這些詞向量經(jīng)常用來當做NLP任務(wù)的附加特征。另一種預(yù)訓練模型是句子級別上的向量化表示,如ULMFiT。其他的還有OpenAI GPT及BERT。

雖然BERT在許多自然語言理解任務(wù)上取得了驚人的成績,但是它的潛力還尚未被完全探索出來。很少有研究來進一步改進BERT在目標任務(wù)上的性能。這篇論文的主要目的就是通過探索多種方式最大化地利用BERT來增強其在文本分類任務(wù)上的性能。本篇論文的主要貢獻如下:

(1)提出了一個通用的解決方案來微調(diào)預(yù)訓練的 BERT 模型,它包括三個步驟:(1)進一步預(yù)訓練 BERT任務(wù)內(nèi)訓練數(shù)據(jù)或領(lǐng)域內(nèi)數(shù)據(jù);(2) 如果有多個相關(guān)任務(wù)可用,可選用多任務(wù)學習微調(diào) BERT;(3) 為目標任務(wù)微調(diào)BERT。

(2)本文研究了 BERT 在目標任務(wù)上的微調(diào)方法,包括長文本預(yù)處理、逐層選擇、逐層學習率、災(zāi)難性遺忘

(3)我們在七個廣泛研究的英文文本分類數(shù)據(jù)集和一個中文新聞分類數(shù)據(jù)集上取得了SOTA成果

4

論文核心

Fine-Tuning Strategies:當我們?yōu)槟繕巳蝿?wù)微調(diào) BERT 時,有很多方法可以使用 BERT。例如,BERT 的不同層捕獲不同級別的語義和句法信息,哪一層更適合目標任務(wù)?我們?nèi)绾芜x擇更好的優(yōu)化算法和學習率?

Further Pre-training:BERT 在通用域中訓練,其數(shù)據(jù)分布與目標域不同。一個自然的想法是使用目標域數(shù)據(jù)進一步預(yù)訓練 BERT。這個真的非常有效,在微調(diào)達到一定瓶頸之后,可以嘗試下在比賽語料上ITPT,也就是繼續(xù)預(yù)訓練。在海華閱讀理解比賽以及基于文本挖掘的企業(yè)隱患排查質(zhì)量分析模型都得到了成功驗證~

Multi-Task Fine-Tuning:在沒有預(yù)先訓練的 LM 模型的情況下,多任務(wù)學習已顯示出其利用多個任務(wù)之間共享知識優(yōu)勢的有效性。當目標域中有多個可用任務(wù)時,一個有趣的問題是,在所有任務(wù)上同時微調(diào) BERT 是否仍然帶來好處。

5

微調(diào)策略

1. 處理長文本我們知道BERT 的最大序列長度為 512,BERT 應(yīng)用于文本分類的第一個問題是如何處理長度大于 512 的文本。本文嘗試了以下方式處理長文章。

Truncation methods 截斷法文章的關(guān)鍵信息位于開頭和結(jié)尾。我們可以使用三種不同的截斷文本方法來執(zhí)行 BERT 微調(diào)。

head-only: keep the first 510 tokens 頭部510個字符,加上兩個特殊字符剛好是512 ;

tail-only: keep the last 510 tokens;尾部510個字符,同理加上兩個特殊字符剛好是512 ;

head+tail: empirically select the first 128and the last 382 tokens.:尾部結(jié)合

Hierarchical methods 層級法輸入的文本首先被分成k = L/510個片段,喂入 BERT 以獲得 k 個文本片段的表示向量。每個分數(shù)的表示是最后一層的 [CLS] 標記的隱藏狀態(tài),然后我們使用均值池化、最大池化和自注意力來組合所有分數(shù)的表示。

上表的結(jié)果顯示,head+tail的截斷法在IMDb和Sogou數(shù)據(jù)集上表現(xiàn)最好。后續(xù)的實驗也是采用這種方式進行處理。

2. 不同層的特征BERT 的每一層都捕獲輸入文本的不同特征。文本研究了來自不同層的特征的有效性, 然后我們微調(diào)模型并記錄測試錯誤率的性能。

我們可以看到:最后一層表征效果最好;最后4層進行max-pooling效果最好3. 災(zāi)難性遺忘Catastrophic forgetting (災(zāi)難性遺忘)通常是遷移學習中的常見詬病,這意味著在學習新知識的過程中預(yù)先訓練的知識會被遺忘。因此,本文還研究了 BERT 是否存在災(zāi)難性遺忘問題。我們用不同的學習率對 BERT 進行了微調(diào),發(fā)現(xiàn)需要較低的學習率,例如 2e-5,才能使 BERT 克服災(zāi)難性遺忘問題。在 4e-4 的較大學習率下,訓練集無法收斂。

這個也深有體會,當預(yù)訓練模型失效不能夠收斂的時候多檢查下超參數(shù)是否設(shè)置有問題。4. Layer-wise Decreasing Layer Rate 逐層降低學習率下表 顯示了不同基礎(chǔ)學習率和衰減因子在 IMDb 數(shù)據(jù)集上的性能。我們發(fā)現(xiàn)為下層分配較低的學習率對微調(diào) BERT 是有效的,比較合適的設(shè)置是 ξ=0.95 和 lr=2.0e-5

為不同的BERT設(shè)置不同的學習率及衰減因子,BERT的表現(xiàn)如何?把參數(shù)θ hetaθ劃分成{ θ 1 , … , θ L } { heta^1,dots, heta^L}{θ1,…,θL},其中θ l heta^lθl

6

ITPT:繼續(xù)預(yù)訓練

Bert是在通用的語料上進行預(yù)訓練的,如果要在特定領(lǐng)域應(yīng)用文本分類,數(shù)據(jù)分布一定是有一些差距的。這時候可以考慮進行深度預(yù)訓練。

Within-task pre-training:Bert在訓練語料上進行預(yù)訓練In-domain pre-training:在同一領(lǐng)域上的語料進行預(yù)訓練Cross-domain pre-training:在不同領(lǐng)域上的語料進行預(yù)訓練

Within-task pretraining

BERT-ITPT-FiT 的意思是“BERT + with In-Task Pre-Training + Fine-Tuning”,上圖表示IMDb 數(shù)據(jù)集上進行不同步數(shù)的繼續(xù)預(yù)訓練是有收益的。2 In-Domain 和 Cross-Domain Further Pre-Training

我們發(fā)現(xiàn)幾乎所有進一步的預(yù)訓練模型在所有七個數(shù)據(jù)集上的表現(xiàn)都比原始 BERT 基礎(chǔ)模型。一般來說,域內(nèi)預(yù)訓練可以帶來比任務(wù)內(nèi)預(yù)訓練更好的性能。在小句子級 TREC 數(shù)據(jù)集上,任務(wù)內(nèi)預(yù)訓練會損害性能,而在使用 Yah 的領(lǐng)域預(yù)訓練中。Yah. A.語料庫可以在TREC上取得更好的結(jié)果。

這篇論文與其他模型進行了比較,結(jié)果如下表所示:

我們可以看到ITPT和IDPT以及CDPT的錯誤率相比其他模型在不同數(shù)據(jù)集有不同程度下降。

7

多任務(wù)微調(diào)

所有任務(wù)都會共享BERT層及Embedding層,唯一不共享的層就是最終的分類層,每個任務(wù)都有各自的分類層。

上表表明對于基于BERT多任務(wù)微調(diào),效果有所提升,但是對于CDPT的多任務(wù)微調(diào)是有所下降的,所以說多任務(wù)學習對于改進對相關(guān)文本分類子任務(wù)的泛化可能不是必要的。

8

小樣本學習 Few-Shot Learning

實驗表明:BERT能夠為小規(guī)模數(shù)據(jù)帶來顯著的性能提升。

9

BERT Large模型上進一步預(yù)訓練

實驗結(jié)果表明:在特定任務(wù)上微調(diào)BERT Large模型能夠獲得當前最優(yōu)的結(jié)果。

接下來給大家?guī)砀韶洸糠郑翰煌瑢W習率策略的使用

不同學習率策略

Constant Schedule

Constant Schedule with Warmup

Cosine with Warmup

Cosine With Hard Restarts

Linear Schedule with Warmup

Polynomial Decay with Warmup

參考資料

一起讀論文 | 文本分類任務(wù)的BERT微調(diào)方法論

NLP重鑄篇之BERT如何微調(diào)文本分類

【論文解析】如何將Bert更好地用于文本分類(How to Fine-Tune BERT for Text Classification?)

How to Fine-Tune BERT for Text Classification 論文筆記

Bert微調(diào)技巧實驗大全

論文閱讀筆記:這篇文章教你在文本分類任務(wù)上微調(diào)BERT

How to Fine-Tune BERT for Text Classification?讀論文-如何讓Bert在finetune小數(shù)據(jù)集時更“穩(wěn)”一點

論文標題:How to Fine-Tune BERT for Text Classification?中文

中文標題:如何微調(diào) BERT 進行文本分類?

論文作者:復(fù)旦大學邱錫鵬老師課題組

實驗代碼:https://github.com/xuyige/BERT4doc-Classification

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 文本分類
    +關(guān)注

    關(guān)注

    0

    文章

    18

    瀏覽量

    7429

原文標題:文本分類上分利器: Bert微調(diào)trick大全

文章出處:【微信號:NLP_lover,微信公眾號:自然語言處理愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    傳感器大全分類

    傳感器大全分類
    發(fā)表于 09-04 16:56 ?1次下載

    飛書開源“RTV”富文本組件 重塑鴻蒙應(yīng)用富文本渲染體驗

    近日,飛書正式將其自研的富文本組件庫?RichTextVista(簡稱“RTV”)開源,并上線OpenHarmony?三方庫中心倉。該組件以領(lǐng)先的性能、流暢的渲染體驗與高度的開放性,為鴻蒙生態(tài)提供了
    的頭像 發(fā)表于 07-11 15:20 ?369次閱讀
    飛書開源“RTV”富<b class='flag-5'>文本</b>組件 重塑鴻蒙應(yīng)用富<b class='flag-5'>文本</b>渲染體驗

    Docker Volume管理命令大全

    Docker Volume管理命令大全
    的頭像 發(fā)表于 05-28 17:14 ?491次閱讀

    中國集成電路大全 接口集成電路

    資料介紹本文系《中國集成電路大全》的接口集成電路分冊,是國內(nèi)第一次比較系統(tǒng)地介紹國產(chǎn)接口集成電路的系列、品種、特性和應(yīng)用方而知識的書籍。全書共有總表、正文和附錄三部分內(nèi)容??偙聿糠至杏袊a(chǎn)接口
    發(fā)表于 04-21 16:33

    把樹莓派打造成識別文本的“神器”!

    在許多項目中,RaspberryPi被用作監(jiān)控攝像頭或執(zhí)行機器學習任務(wù)。在這些場景中,圖像中經(jīng)常包含應(yīng)用程序感興趣的文本信息。我們希望提取這些信息并將其轉(zhuǎn)換,以便通過程序分析文本
    的頭像 發(fā)表于 03-25 09:30 ?653次閱讀
    把樹莓派打造成識別<b class='flag-5'>文本</b>的“神器”!

    ?VLM(視覺語言模型)?詳細解析

    的詳細解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺Transformer(ViT)。 語言模型 :處理文本輸入/輸出,如GPT、BERT等,部分模型
    的頭像 發(fā)表于 03-17 15:32 ?6734次閱讀
    ?VLM(視覺語言模型)?詳細解析

    使用OpenVINO?訓練擴展對水平文本檢測模型進行微調(diào),收到錯誤信息是怎么回事?

    已針對水平文本檢測模型運行OpenVINO?訓練擴展中的 微調(diào) 步驟,并收到錯誤消息: RuntimeError: Failed to find annotation files
    發(fā)表于 03-05 06:48

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調(diào)技術(shù)解讀

    。對于文本數(shù)據(jù),可以采用同義詞替換、句法變換、上下文擴展等技術(shù)。微調(diào)策略和方法全參數(shù)微調(diào):對模型的所有參數(shù)進行再訓練。雖然需要大量的計算資源,但它可以充分適應(yīng)特定任務(wù)。輕量級
    發(fā)表于 01-14 16:51

    如何使用自然語言處理分析文本數(shù)據(jù)

    媒體、新聞報道、用戶評論等)收集你感興趣的文本數(shù)據(jù)。 數(shù)據(jù)清洗 :去除無關(guān)字符(如HTML標簽、特殊符號等),確保文本數(shù)據(jù)干凈且一致。 2. 預(yù)處理 分詞 :將文本分割成有意義的單元(單詞、短語或句子),這取決于使用的語言和分析
    的頭像 發(fā)表于 12-05 15:27 ?2125次閱讀

    圖紙模板中的文本變量

    “ ?文本變量和系統(tǒng)自帶的內(nèi)置變量,可以幫助工程師靈活、高效地配置標題欄中的信息,而不用擔心模板中的文字對象被意外修改。 ? ” 文本變量的語法 文本變量以?${VARIABLENAME}?的方式
    的頭像 發(fā)表于 11-13 18:21 ?973次閱讀
    圖紙模板中的<b class='flag-5'>文本</b>變量

    如何在文本字段中使用上標、下標及變量

    在KiCad的任何文本字段中,都可以通過以下的方式實現(xiàn)上標、下標、上劃線以及顯示變量及字段值的描述: 文本變量“文本變量”可以在 原理圖設(shè)置->工程->文本變量 中設(shè)置。下圖中設(shè)置了一
    的頭像 發(fā)表于 11-12 12:23 ?924次閱讀
    如何在<b class='flag-5'>文本</b>字段中使用上標、下標及變量

    如何進行自然語言處理模型訓練

    1. 確定目標和需求 在開始之前,你需要明確你的NLP項目的目標是什么。這可能是文本分類、情感分析、機器翻譯、問答系統(tǒng)等。明確目標有助于選擇合適的數(shù)據(jù)集和模型架構(gòu)。 2. 數(shù)據(jù)收集和預(yù)處理 數(shù)據(jù)收集
    的頭像 發(fā)表于 11-11 10:43 ?1478次閱讀

    使用LLM進行自然語言處理的優(yōu)缺點

    語言任務(wù),如文本分類、情感分析、機器翻譯等。以下是使用LLM進行NLP的一些優(yōu)缺點: 優(yōu)點 強大的語言理解能力 : LLM通過訓練學習了大量的語言模式和結(jié)構(gòu),能夠理解和生成自然語言文本。 它們能夠捕捉到語言中的細微差別,包括語境
    的頭像 發(fā)表于 11-08 09:27 ?3400次閱讀

    RK3588 技術(shù)分享 | 在Android系統(tǒng)中使用NPU實現(xiàn)Yolov5分類檢測

    : NPU幫助機器完成更高效的翻譯、文本分類和情感分析,推動了自然語言處理技術(shù)的發(fā)展。 實例分享:Yolov5分類檢測 在RK3588處理器上,不僅可以基于Linux系統(tǒng)使用NPU,也可以
    發(fā)表于 10-24 10:13

    Linux實用命令大全

    Linux實用命令大全
    的頭像 發(fā)表于 10-23 13:50 ?866次閱讀
    Linux實用命令<b class='flag-5'>大全</b>