91大神系列在线播放,亚洲欧美日韩国产综合第二页

簡(jiǎn)述六種優(yōu)雅的精調(diào)方法

經(jīng)常會(huì)收到一些比較簡(jiǎn)要的技術(shù)咨詢，描述了是什么任務(wù)，發(fā)現(xiàn)用BERT粗暴精調(diào)效果不好之后，問(wèn)我有什么辦法可以提升。

在面對(duì)第一把梭就失敗時(shí)，我通常是這么判斷的：

如果效果差的很離譜，比如二分類準(zhǔn)確率在60%以下，那大概率是模型有問(wèn)題，開(kāi)始用小數(shù)據(jù)集debug
如果有點(diǎn)效果，但一言難盡，那估計(jì)是數(shù)據(jù)有問(wèn)題，要不然噪聲多，要不然是真的難，可以自己看一下訓(xùn)練集，如果人看完后在幾秒內(nèi)都不能給出答案，就別太指望模型可以做好

在第一把效果還行的情況下，推薦嘗試以下策略：

In-Domain Further Pre-train：利用同領(lǐng)域下的無(wú)監(jiān)督數(shù)據(jù)繼續(xù)MLM預(yù)訓(xùn)練，這個(gè)方法我真的百試不厭，一般用一兩百萬(wàn)的數(shù)據(jù)就能提升1-2個(gè)點(diǎn)
Within-Task Further Pre-Training：利用不同領(lǐng)域的同任務(wù)數(shù)據(jù)預(yù)先精調(diào)，選通用一些的一般也有提升
Multi-Task Fine-Tuning：利用不同任務(wù)預(yù)先精調(diào)
Layer-wise Decreasing Layer Rate：每層學(xué)到的知識(shí)都是不同的，前面幾層會(huì)更通用，所以學(xué)的時(shí)候可以用小一點(diǎn)的學(xué)習(xí)率，防止災(zāi)難性遺忘
Features from Different layers：把不同層的輸出集成起來(lái)，不過(guò)這個(gè)方法不一定有提升
長(zhǎng)文本處理：截?cái)嗷蚴褂脤哟位幋a

以上這些方法，都出自復(fù)旦邱錫鵬老師的《How to fine-tune BERT for text classification?》，該文進(jìn)行了各種詳細(xì)的實(shí)驗(yàn)，得出了不少有用的結(jié)論，推薦大家去學(xué)習(xí)。即使有的方法在論文數(shù)據(jù)集中表現(xiàn)一般，在自己的數(shù)據(jù)上也可以嘗試。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1229

瀏覽量
25910
DEBUG

DEBUG

+關(guān)注

關(guān)注
3

文章
95

瀏覽量
21115
nlp

nlp

+關(guān)注

關(guān)注
1

文章
491

瀏覽量
23035

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

簡(jiǎn)述六種優(yōu)雅的精調(diào)方法

評(píng)論