經(jīng)常會(huì)收到一些比較簡(jiǎn)要的技術(shù)咨詢(xún),描述了是什么任務(wù),發(fā)現(xiàn)用BERT粗暴精調(diào)效果不好之后,問(wèn)我有什么辦法可以提升。
在面對(duì)第一把梭就失敗時(shí),我通常是這么判斷的:
- 如果效果差的很離譜,比如二分類(lèi)準(zhǔn)確率在60%以下,那大概率是模型有問(wèn)題,開(kāi)始用小數(shù)據(jù)集debug
- 如果有點(diǎn)效果,但一言難盡,那估計(jì)是數(shù)據(jù)有問(wèn)題,要不然噪聲多,要不然是真的難,可以自己看一下訓(xùn)練集,如果人看完后在幾秒內(nèi)都不能給出答案,就別太指望模型可以做好
在第一把效果還行的情況下,推薦嘗試以下策略:
- In-Domain Further Pre-train:利用同領(lǐng)域下的無(wú)監(jiān)督數(shù)據(jù)繼續(xù)MLM預(yù)訓(xùn)練,這個(gè)方法我真的百試不厭,一般用一兩百萬(wàn)的數(shù)據(jù)就能提升1-2個(gè)點(diǎn)
- Within-Task Further Pre-Training:利用不同領(lǐng)域的同任務(wù)數(shù)據(jù)預(yù)先精調(diào),選通用一些的一般也有提升
- Multi-Task Fine-Tuning:利用不同任務(wù)預(yù)先精調(diào)
- Layer-wise Decreasing Layer Rate:每層學(xué)到的知識(shí)都是不同的,前面幾層會(huì)更通用,所以學(xué)的時(shí)候可以用小一點(diǎn)的學(xué)習(xí)率,防止災(zāi)難性遺忘
- Features from Different layers:把不同層的輸出集成起來(lái),不過(guò)這個(gè)方法不一定有提升
- 長(zhǎng)文本處理:截?cái)嗷蚴褂脤哟位幋a
以上這些方法,都出自復(fù)旦邱錫鵬老師的《How to fine-tune BERT for text classification?》,該文進(jìn)行了各種詳細(xì)的實(shí)驗(yàn),得出了不少有用的結(jié)論,推薦大家去學(xué)習(xí)。即使有的方法在論文數(shù)據(jù)集中表現(xiàn)一般,在自己的數(shù)據(jù)上也可以嘗試。
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25408 -
DEBUG
+關(guān)注
關(guān)注
3文章
94瀏覽量
20518 -
nlp
+關(guān)注
關(guān)注
1文章
490瀏覽量
22597
發(fā)布評(píng)論請(qǐng)先 登錄
保持電容性負(fù)載穩(wěn)定的六種方法
linux下查看網(wǎng)卡流量的六種方法
六種常見(jiàn)的伺服電機(jī)故障以及相對(duì)應(yīng)的電機(jī)維修方法
個(gè)人制作電路板的六種方法及操作步驟
PCB溶液濃度的六種計(jì)算方法
手機(jī)NFC的六種實(shí)用用法
導(dǎo)致開(kāi)關(guān)電源嘯叫的六種情況及解決方法

評(píng)論