chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于RoBERTa的語義理解模型的構(gòu)建

深度學(xué)習(xí)自然語言處理 ? 來源:美團(tuán)技術(shù)團(tuán)隊(duì) ? 作者:駱穎,徐俊,謝睿 ? 2022-07-08 14:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

美團(tuán)技術(shù)團(tuán)隊(duì) 近日,美團(tuán)搜索與NLP部NLP中心語義理解團(tuán)隊(duì)的小樣本學(xué)習(xí)模型FSL++在中文小樣本語言理解權(quán)威評測基準(zhǔn)FewCLUE榜單登頂,在自然語言推理(OCNLI)單任務(wù)中取得第一,并在極少數(shù)樣本(一個類別僅100余個)的條件下,在新聞分類(TNEWS)、科學(xué)文獻(xiàn)學(xué)科分類(CSLDCP)任務(wù)上超過了人類識別精確度。

1 概述

2 方法介紹

2.1 增強(qiáng)預(yù)訓(xùn)練

2.2 模型結(jié)構(gòu)

2.3 數(shù)據(jù)增強(qiáng)

2.4 集成學(xué)習(xí)&自訓(xùn)練

3 實(shí)驗(yàn)結(jié)果

3.1 數(shù)據(jù)集介紹

3.2 實(shí)驗(yàn)對比

4 小樣本學(xué)習(xí)策略在美團(tuán)場景的應(yīng)用

5 總結(jié)

1 概述

CLUE(Chinese Language Understanding Evaluation)[1]是中文語言理解權(quán)威測評榜單,包含了文本分類、句間關(guān)系、閱讀理解等眾多語義分析和語義理解類子任務(wù),對學(xué)術(shù)界和工業(yè)界都產(chǎn)生了較大的影響。

8ba72012-e8a5-11ec-ba43-dac502259ad0.png

圖1 FewCLUE榜單(截止到2022-04-18)

FewCLUE[2,3]是CLUE中專門用于中文小樣本學(xué)習(xí)評測的一個子榜,旨在結(jié)合預(yù)訓(xùn)練語言模型通用和強(qiáng)大的泛化能力,探索小樣本學(xué)習(xí)最佳模型和在中文上的實(shí)踐。FewCLUE的部分?jǐn)?shù)據(jù)集只有一百多條有標(biāo)簽樣本,可以衡量模型在極少有標(biāo)簽樣本下的泛化性能,發(fā)布后吸引了包括網(wǎng)易、微信AI、阿里巴巴、IDEA研究院、浪潮人工智能研究院等多家企業(yè)與研究院的參與。不久前,美團(tuán)平臺搜索與NLP部NLP中心語義理解團(tuán)隊(duì)的小樣本學(xué)習(xí)模型FSL++以優(yōu)越的性能在FewCLUE榜單上取得第一名,達(dá)到SOTA水平。

2 方法介紹

大規(guī)模預(yù)訓(xùn)練模型雖然在各大任務(wù)里面取得非常好的效果,但是在特定的任務(wù)上,還是需要許多標(biāo)注數(shù)據(jù)。美團(tuán)的各個業(yè)務(wù)中,有著豐富的NLP場景,往往需要較高的人工標(biāo)注成本。在業(yè)務(wù)發(fā)展早期或者新的業(yè)務(wù)需求需要快速上線時,往往會出現(xiàn)標(biāo)注樣本不足的現(xiàn)象,使用傳統(tǒng)Pretrain(預(yù)訓(xùn)練)+ Fine-Tune(微調(diào))的深度學(xué)習(xí)訓(xùn)練方法往往達(dá)不到理想的指標(biāo)要求,因此研究小樣本場景的模型訓(xùn)練問題就變得非常必要。

本文提出了一套大模型 + 小樣本的聯(lián)合訓(xùn)練方案FSL++,綜合了模型結(jié)構(gòu)優(yōu)選、大規(guī)模預(yù)訓(xùn)練、樣本增強(qiáng)、集成學(xué)習(xí)以及自訓(xùn)練等模型優(yōu)化策略,最終在中文語言理解權(quán)威評測基準(zhǔn)下的FewCLUE榜單取得了優(yōu)異的成績,并且在部分任務(wù)上性能超過了人類水平,而在部分任務(wù)上(如CLUEWSC)還有一定的提升空間。

FewCLUE發(fā)布后,網(wǎng)易伏羲使用自研的EET模型[4],并通過二次訓(xùn)練增強(qiáng)模型的語義理解能力,再加入模版進(jìn)行多任務(wù)學(xué)習(xí);IDEA研究院的二郎神模型[5]在BERT模型的基礎(chǔ)上使用更先進(jìn)的預(yù)訓(xùn)練技術(shù)訓(xùn)練大模型,在下游任務(wù)微調(diào)的過程中用加入動態(tài)Mask策略的Masked Language Model(MLM)作為輔助任務(wù)。這些方法都使用Prompt Learning作為基本的任務(wù)架構(gòu),跟這些自研的大模型相比,我們的方法主要在Prompt Learning框架的基礎(chǔ)上加入了樣本增強(qiáng)、集成學(xué)習(xí)以及自學(xué)習(xí)等模型優(yōu)化策略,極大地提高模型的任務(wù)表現(xiàn)和魯棒性,同時這套方法可以適用于各種預(yù)訓(xùn)練模型,更加靈活便捷。

FSL++整體模型結(jié)構(gòu)如下圖2所示。FewCLUE數(shù)據(jù)集為每個任務(wù)提供160條有標(biāo)簽數(shù)據(jù)以及接近兩萬條無標(biāo)簽數(shù)據(jù)。本次FewCLUE實(shí)踐中,我們先在Fine-Tune階段構(gòu)造多模板Prompt Learning,并對有標(biāo)簽數(shù)據(jù)采用對抗訓(xùn)練、對比學(xué)習(xí)、Mixup等增強(qiáng)策略。由于這些數(shù)據(jù)增強(qiáng)策略采用不同的增強(qiáng)原理,可以認(rèn)為這些模型之間差異性比較顯著,經(jīng)過集成學(xué)習(xí)之后會有比較好的效果。所以在采用數(shù)據(jù)增強(qiáng)策略進(jìn)行訓(xùn)練以后,我們擁有了多個弱監(jiān)督模型,并且用這些弱監(jiān)督模型在無標(biāo)簽數(shù)據(jù)上進(jìn)行預(yù)測,得到無標(biāo)簽數(shù)據(jù)的偽標(biāo)簽分布。之后,我們將多個經(jīng)過不同的數(shù)據(jù)增強(qiáng)模型預(yù)測得到的無標(biāo)簽數(shù)據(jù)的偽標(biāo)簽分布整合起來,得到一份總的無標(biāo)簽數(shù)據(jù)的偽標(biāo)簽分布,接著重新構(gòu)造多模板Prompt Learning,并再次使用數(shù)據(jù)增強(qiáng)策略,選擇最優(yōu)策略。目前,我們的實(shí)驗(yàn)只進(jìn)行一輪迭代,也可以嘗試多輪迭代,不過隨著迭代次數(shù)增加,提升也不再明顯。

8be43c72-e8a5-11ec-ba43-dac502259ad0.png

圖2 FSL++模型框架

2.1 增強(qiáng)預(yù)訓(xùn)練

預(yù)訓(xùn)練語言模型是在龐大的無標(biāo)簽語料庫上進(jìn)行訓(xùn)練的。例如,RoBERTa[6]在160GB以上的文本進(jìn)行訓(xùn)練,包括百科全書、新聞文章、文學(xué)作品和Web內(nèi)容。通過這些模型學(xué)習(xí)到的表示,在包含多種來源的各種大小的數(shù)據(jù)集的任務(wù)中實(shí)現(xiàn)出色的性能。

FSL++模型使用RoBERTa-large模型作為基礎(chǔ)模型,并且采用融入領(lǐng)域知識的Domain-Adaptive Pretraining (DAPT)[7]預(yù)訓(xùn)練方法和融入任務(wù)知識的Task-Adaptive Pretraining (TAPT)[7]。DAPT旨在預(yù)訓(xùn)練模型的基礎(chǔ)上,增加大量領(lǐng)域內(nèi)無標(biāo)簽文本繼續(xù)訓(xùn)練語言模型,之后再在指定任務(wù)的數(shù)據(jù)集上進(jìn)行微調(diào)。

對目標(biāo)文本領(lǐng)域進(jìn)行繼續(xù)預(yù)訓(xùn)練,可以提高語言模型的性能,尤其是在與目標(biāo)文本領(lǐng)域相關(guān)的下游任務(wù)上的性能。并且,預(yù)訓(xùn)練文本與任務(wù)領(lǐng)域的相關(guān)度越高,帶來的提升越大。在本次實(shí)踐中,我們最終使用了在100G包含娛樂節(jié)目、體育、健康、國際事務(wù)、電影、名人等各個領(lǐng)域的語料的CLUE Vocab[8]上預(yù)訓(xùn)練得到的RoBERTa Large模型。TAPT指在預(yù)訓(xùn)練模型的基礎(chǔ)上,增加數(shù)量較少但與任務(wù)直接相關(guān)的無標(biāo)簽語料進(jìn)行預(yù)訓(xùn)練。針對TAPT任務(wù),我們選擇使用的預(yù)訓(xùn)練數(shù)據(jù)是FewCLUE榜單為每個任務(wù)提供的無標(biāo)簽數(shù)據(jù)。

除此之外,在針對句間關(guān)系任務(wù),如中文自然語言推理任務(wù)OCNLI、中文對話短文本匹配任務(wù)BUSTM的實(shí)踐中,我們使用在其他句間關(guān)系任務(wù)如中文自然語言推理數(shù)據(jù)集CMNLI、中文短文本相似度數(shù)據(jù)集LCQMC上進(jìn)行預(yù)訓(xùn)練的模型參數(shù)作為初始參數(shù),相比直接用原始模型完成任務(wù),也能提升一定的效果。

2.2 模型結(jié)構(gòu)

FewCLUE包含多種任務(wù)形式,我們?yōu)槊糠N任務(wù)選擇了合適的模型結(jié)構(gòu)。文本分類任務(wù)和機(jī)器閱讀理解(MRC)任務(wù)本身的類別詞就攜帶了信息,因此更適合建模為Masked Language Model(MLM)形式;而句間關(guān)系任務(wù)判斷兩個句子的相關(guān)性,更類似于Next Sentence Prediction(NSP)[9]任務(wù)形式。因此,我們?yōu)榉诸惾蝿?wù)和閱讀理解任務(wù)選擇PET[10]模型,為句間關(guān)系任務(wù)選擇EFL[11]模型,EFL方法可以通過全局采樣構(gòu)造負(fù)樣本,學(xué)習(xí)到更魯棒的分類器。

2.2.1 Prompt Learning

Prompt Learning的主要目標(biāo)是盡可能減小預(yù)訓(xùn)練目標(biāo)與下游微調(diào)目標(biāo)的差距。通?,F(xiàn)有的預(yù)訓(xùn)練任務(wù)均包含MLM損失函數(shù),但是下游的任務(wù)則并未采用MLM,而是引入新的分類器,使得預(yù)訓(xùn)練任務(wù)和下游任務(wù)出現(xiàn)了不一致。Prompt Learning不引入額外的分類器或其他參數(shù),而是通過拼接模板(Template,即為輸入數(shù)據(jù)拼接語言片段,從而改造任務(wù)為MLM形式)和標(biāo)簽詞映射(Verbalizer,即為每個標(biāo)簽在詞表中找到對應(yīng)的詞,從而為MLM任務(wù)設(shè)定預(yù)測目標(biāo)),使得模型可以在少量樣本的條件下在下游任務(wù)中使用。

8c32bfaa-e8a5-11ec-ba43-dac502259ad0.png

圖3 Prompt Learning方法完成情感分析任務(wù)的流程圖

以圖3展示的電商評價情感分析任務(wù)EPRSTMT為例。給定文本“這個電影真不錯,值得第二次觀看!”,傳統(tǒng)的文本分類則是在CLS部分的Embedding接上分類器,并映射到0-1分類上(0:負(fù)向,1:正向)。這種方法在小樣本場景下需要訓(xùn)練新的分類器,比較難獲得好的效果。而基于Prompt Learning的方法則是創(chuàng)建模板“這是一條 [MASK] 評。”,再將模板與原文進(jìn)行拼接,訓(xùn)練時通過語言模型預(yù)測[MASK]位置的詞,再將其映射到對應(yīng)的類別上(好:正向, 差:負(fù)向)。

由于缺乏足夠數(shù)據(jù),有時很難確定表現(xiàn)最好的模板和標(biāo)簽詞映射。因此,也可以采用多模板與多標(biāo)簽詞映射的設(shè)計(jì)。通過設(shè)計(jì)多個模板,最終的結(jié)果采用多個模板的結(jié)果的整合,或設(shè)計(jì)一對多的標(biāo)簽詞映射,讓一個標(biāo)簽對應(yīng)多個詞。同上述例子,可以設(shè)計(jì)如下模板組合(左:同一個句子的多模板,右:多標(biāo)簽映射)。

8c889e3e-e8a5-11ec-ba43-dac502259ad0.png

圖4 PET多模板與多標(biāo)簽映射圖

任務(wù)樣例

8cbb95d2-e8a5-11ec-ba43-dac502259ad0.png

表1 FewCLUE數(shù)據(jù)集中PET模板構(gòu)建

2.2.2 EFL

EFL模型將兩個句子拼接在一起,用輸出層的[CLS]位置處的Embedding后接一個分類器完成預(yù)測。EFL的訓(xùn)練過程中,除了訓(xùn)練集的樣本,還會進(jìn)行負(fù)樣本構(gòu)造,訓(xùn)練過程中,在每個Batch里隨機(jī)選擇其他數(shù)據(jù)中的句子作為負(fù)樣本,通過構(gòu)造負(fù)樣本進(jìn)行數(shù)據(jù)增強(qiáng)。雖然EFL模型需要訓(xùn)練新的分類器,但目前有很多公開的文本蘊(yùn)含/句間關(guān)系數(shù)據(jù)集,如CMNLI、LCQMC等,可以通過在這些樣本上進(jìn)行持續(xù)學(xué)習(xí)(continue-train),再將學(xué)習(xí)到的參數(shù)遷移到小樣本場景中,用FewCLUE的任務(wù)數(shù)據(jù)集進(jìn)行進(jìn)一步微調(diào)。

任務(wù)樣例

8cda3816-e8a5-11ec-ba43-dac502259ad0.png

表2 FewCLUE數(shù)據(jù)集中EFL模板構(gòu)建

2.3 數(shù)據(jù)增強(qiáng)

數(shù)據(jù)增強(qiáng)方法主要有樣本增強(qiáng)和Embedding增強(qiáng)。NLP領(lǐng)域中,數(shù)據(jù)增強(qiáng)的目的是在不改變語義的前提下擴(kuò)充文本數(shù)據(jù)。主要的方法包括簡單文本替換、使用語言模型生成相似句子等,我們嘗試過EDA等擴(kuò)充文本數(shù)據(jù)的方法,但是一個詞的變化就可能導(dǎo)致整個句子的意思發(fā)生翻轉(zhuǎn),經(jīng)過替換的文本攜帶大量噪音,所以很難用簡單的規(guī)則樣本變化產(chǎn)生足夠的增強(qiáng)數(shù)據(jù)。而Embedding增強(qiáng),則不再對輸入進(jìn)行操作,轉(zhuǎn)而在Embedding層面進(jìn)行操作,可以通過對Embedding增加擾動或者插值等方式提升模型的魯棒性。

因此,本次實(shí)踐中我們主要進(jìn)行Embedding增強(qiáng)。我們用的數(shù)據(jù)增強(qiáng)策略分別有Mixup[12]、Manifold-Mixup[13]、對抗訓(xùn)練(Adversarial training, AT) [14]和對比學(xué)習(xí)R-drop[15]。數(shù)據(jù)增強(qiáng)策略的詳細(xì)介紹見之前的技術(shù)博客小樣本學(xué)習(xí)及其在美團(tuán)場景中的應(yīng)用。

8cffd882-e8a5-11ec-ba43-dac502259ad0.png

表3 數(shù)據(jù)增強(qiáng)策略簡述

Mixup通過對輸入數(shù)據(jù)進(jìn)行簡單的線性變換,構(gòu)造新的組合樣本和組合標(biāo)簽,可以增強(qiáng)模型的泛化能力。在各種有監(jiān)督任務(wù)或者半監(jiān)督任務(wù)上,使用Mixup都能極大提高模型的泛化能力。Mixup方法可以視為正則化操作,它要求模型在特征層面生成的組合特征滿足線性約束,并且利用這種約束對模型施加正則化。直觀來看,當(dāng)模型的輸入為另外兩個輸入的線性組合時,其輸出也是這兩個數(shù)據(jù)單獨(dú)輸入模型后所得輸出的線性組合,其實(shí)就是要求模型近似為一個線性系統(tǒng)。

Manifold Mixup將上述的Mixup操作泛化到特征上。因?yàn)樘卣骶哂懈唠A的語義信息,所以在其維度上插值可能會產(chǎn)生更有意義的樣本。在類似于BERT[9]、RoBERTa[6]的模型中,隨機(jī)選擇層數(shù)k,對該層的特征表示進(jìn)行Mixup插值。普通的Mixup的插值發(fā)生在輸出層Embedding部分,而Manifold Mixup相當(dāng)于把這一系列插值操作加入到語言模型內(nèi)部的Transformers結(jié)構(gòu)的隨機(jī)某層中。

對抗訓(xùn)練通過在輸入樣本上增加微小的擾動來顯著提高模型Loss。對抗訓(xùn)練就是訓(xùn)練一個能有效識別原始樣本和對抗樣本的模型?;驹砭褪峭ㄟ^添加擾動構(gòu)造一些對抗樣本,交給模型去訓(xùn)練,提高模型在遇到對抗樣本時的魯棒性,同時也能提高模型的表現(xiàn)和泛化能力。對抗樣本需要具有兩個特點(diǎn),分別是:

相對于原始輸入,所添加的擾動是微小的。

能使模型犯錯。對抗訓(xùn)練有兩個作用,分別是提高模型對惡意攻擊的魯棒性和提高模型的泛化能力。

R-Drop對同一個句子做兩次Dropout,并且強(qiáng)制由Dropout生成的不同子模型的輸出概率保持一致。Dropout的引入雖然效果很好,但是它會導(dǎo)致訓(xùn)練和推理過程的不一致性問題。為緩解這種訓(xùn)練推理過程的不一致性,R-Drop對Dropout進(jìn)行正則化處理,在兩個子模型產(chǎn)生的輸出中增加對輸出數(shù)據(jù)分布的限制,引入數(shù)據(jù)分布度量的KL散度損失,使得Batch內(nèi)同一個樣本生成的兩個數(shù)據(jù)分布盡量接近,具有分布一致性。具體來說,對于每個訓(xùn)練樣本,R-Drop最小化了由不同Dropout生成的子模型的輸出概率之間的KL 散度。R-Drop作為一種訓(xùn)練思想,可以用到大部分有監(jiān)督或半監(jiān)督的訓(xùn)練中,通用性強(qiáng)。

我們使用的三種數(shù)據(jù)增強(qiáng)策略,Mixup是在語言模型的輸出層Embedding和語言模型的內(nèi)部隨機(jī)某層Transformers的輸出層中做兩個樣本的線性變化,對抗訓(xùn)練是在樣本上增加微小的擾動,而對比學(xué)習(xí)是對同一個句子做兩次Dropout形成正樣本對,再用KL散度限制兩個子模型保持一致。三種策略都是通過在Embedding完成一些操作來增強(qiáng)模型的泛化性,經(jīng)過不同策略得到的模型分別都具有不同的偏好,這就為下一步的集成學(xué)習(xí)提供了條件。

2.4 集成學(xué)習(xí)&自訓(xùn)練

集成學(xué)習(xí)可以組合多個弱監(jiān)督模型,以期得到一個更好更全面的強(qiáng)監(jiān)督模型。集成學(xué)習(xí)潛在的思想是即便某一個弱分類器得到了錯誤的預(yù)測,其他的弱分類器也可以將錯誤糾正回來。如果待組合的各個模型之間差異性比較顯著,那么集成學(xué)習(xí)之后通常會有一個較好的結(jié)果。

自訓(xùn)練使用少量的標(biāo)記數(shù)據(jù)和大量的未標(biāo)記數(shù)據(jù)對模型進(jìn)行聯(lián)合訓(xùn)練,首先使用經(jīng)過訓(xùn)練的分類器來預(yù)測所有未標(biāo)記數(shù)據(jù)的標(biāo)簽,然后選擇置信度較高的標(biāo)簽作為偽標(biāo)簽數(shù)據(jù),將偽標(biāo)記數(shù)據(jù)與人工標(biāo)記的訓(xùn)練數(shù)據(jù)聯(lián)合起來重新訓(xùn)練分類器。

集成學(xué)習(xí)+自訓(xùn)練是一套可以利用多個模型以及無標(biāo)簽數(shù)據(jù)的方案。這其中,集成學(xué)習(xí)的一般步驟為:訓(xùn)練多個不同的弱監(jiān)督模型,分別用每個模型預(yù)測無標(biāo)簽數(shù)據(jù)的標(biāo)簽概率分布,計(jì)算標(biāo)簽概率分布的加權(quán)和,得到無標(biāo)簽數(shù)據(jù)的偽標(biāo)簽概率分布。自訓(xùn)練指訓(xùn)練一個模型用于組合其他各個模型,其一般步驟為:訓(xùn)練多個Teacher模型,Student模型學(xué)習(xí)偽標(biāo)簽概率分布中高置信度樣本的Soft Prediction,Student模型作為最后的強(qiáng)學(xué)習(xí)器。

8d21daea-e8a5-11ec-ba43-dac502259ad0.png

圖5 集成學(xué)習(xí)+自訓(xùn)練結(jié)構(gòu)

在本次FewCLUE實(shí)踐中,我們先在Fine-Tune階段構(gòu)造多模板Prompt Learning,并對有標(biāo)注數(shù)據(jù)采用對抗訓(xùn)練、對比學(xué)習(xí)、Mixup等增強(qiáng)策略。由于這些數(shù)據(jù)增強(qiáng)策略采用不同的增強(qiáng)原理,可以認(rèn)為這些模型之間差異性比較顯著,經(jīng)過集成學(xué)習(xí)之后會有比較好的效果。

在采用數(shù)據(jù)增強(qiáng)策略進(jìn)行訓(xùn)練以后,我們擁有了多個弱監(jiān)督模型,并且用這些弱監(jiān)督模型在無標(biāo)簽數(shù)據(jù)上進(jìn)行預(yù)測,得到無標(biāo)簽數(shù)據(jù)的偽標(biāo)簽分布。之后,我們將多個經(jīng)過不同的數(shù)據(jù)增強(qiáng)模型預(yù)測得到的無標(biāo)簽數(shù)據(jù)的偽標(biāo)簽分布整合起來,得到一份總的無標(biāo)簽數(shù)據(jù)的偽標(biāo)簽分布。篩選偽標(biāo)簽數(shù)據(jù)的過程中,我們不一定會選擇置信度最高的樣本,因?yàn)槿绻總€數(shù)據(jù)增強(qiáng)模型給出的置信度都很高,說明這個樣本可能是容易學(xué)習(xí)的樣本,不一定有很大價值。

我們綜合多個數(shù)據(jù)增強(qiáng)模型給出的置信度,盡量選擇置信度較高,但是又不容易學(xué)習(xí)的樣本(比如多個模型預(yù)測不全部一致)。接著用標(biāo)注數(shù)據(jù)和偽標(biāo)注數(shù)據(jù)的集合重新構(gòu)造多模板Prompt Learning,再次使用數(shù)據(jù)增強(qiáng)策略,并選擇最好的策略。目前,我們的實(shí)驗(yàn)?zāi)壳爸贿M(jìn)行一輪迭代,也可以嘗試多輪迭代,不過隨著迭代次數(shù)增加,提升也會減少,不再顯著。

3 實(shí)驗(yàn)結(jié)果

3.1 數(shù)據(jù)集介紹

FewCLUE榜單提供了9個任務(wù),其中分別為4個文本分類任務(wù),2個句間關(guān)系任務(wù)和3個閱讀理解任務(wù)。文本分類任務(wù)有電商評價情感分析、科學(xué)文獻(xiàn)分類、新聞分類和App應(yīng)用描述主題分類任務(wù)。主要?dú)w類為短文本二分類、短文本多分類和長文本多分類。其中有的任務(wù)類別眾多,超過100類,并且出現(xiàn)了類別不均衡問題。句間關(guān)系任務(wù)有自然語言推理和短文本匹配任務(wù)。閱讀理解任務(wù)則有成語閱讀理解選擇填空,摘要判斷關(guān)鍵詞判別和代詞消歧任務(wù)。每個任務(wù)大體提供了160條有標(biāo)簽數(shù)據(jù)和兩萬條左右的無標(biāo)簽數(shù)據(jù)。因?yàn)殚L文本分類任務(wù)類別眾多,過于困難,也提供了更多的有標(biāo)簽數(shù)據(jù)。詳細(xì)的任務(wù)數(shù)據(jù)情況如表4所示:

8d426c7e-e8a5-11ec-ba43-dac502259ad0.png

表4 FewCLUE數(shù)據(jù)集任務(wù)介紹

3.2 實(shí)驗(yàn)對比

表5展示了不同模型和參數(shù)量的實(shí)驗(yàn)結(jié)果的對比。在RoBERTa Base實(shí)驗(yàn)中,使用PET/EFL模型會超過傳統(tǒng)的直接Fine-Tune模型結(jié)果2-28PP。以PET/EFL模型為基礎(chǔ),為了探索大模型在小樣本場景中的效果,我們在RoBERTa Large上進(jìn)行了實(shí)驗(yàn),相對于RoBERTa Base,大模型可以提升模型0.5-13PP;為了更好地利用領(lǐng)域知識,我們進(jìn)一步在經(jīng)過CLUE數(shù)據(jù)集上增強(qiáng)預(yù)訓(xùn)練的RoBERTa Large Clue模型上進(jìn)行實(shí)驗(yàn),融入了領(lǐng)域知識的大模型進(jìn)一步提升結(jié)果0.1-9pp?;诖耍谥蟮膶?shí)驗(yàn)中,我們都在RoBERTa Large Clue上進(jìn)行實(shí)驗(yàn)。

8d6fff68-e8a5-11ec-ba43-dac502259ad0.png

表5 不同模型和參數(shù)量的實(shí)驗(yàn)結(jié)果對比 (加粗紅色字體表示最好的結(jié)果)

表6展示了在PET/EFL模型上進(jìn)行數(shù)據(jù)增強(qiáng)和集成學(xué)習(xí)實(shí)驗(yàn)結(jié)果, 可以發(fā)現(xiàn)即使是在大模型上使用數(shù)據(jù)增強(qiáng)策略,模型也能帶來0.8-9PP的提升,而進(jìn)一步進(jìn)行集成學(xué)習(xí)&自訓(xùn)練以后,模型表現(xiàn)會繼續(xù)提升0.4-4PP。

8dcb1e0c-e8a5-11ec-ba43-dac502259ad0.png

表6 基礎(chǔ)模型+數(shù)據(jù)增強(qiáng)+集成學(xué)習(xí)實(shí)驗(yàn)效果 (加粗紅色字體表示最好的結(jié)果)

其中集成學(xué)習(xí)+自訓(xùn)練步驟中,我們嘗試了幾種篩選策略:

選擇置信度最高的樣本,這種策略帶來的提升在1PP以內(nèi),置信度最高的偽標(biāo)簽樣本中很多是多個模型預(yù)測一致且置信度都比較高的樣本,這部分樣本比較容易學(xué)習(xí),融入這部分樣本帶來的收益有限。

選擇置信度高且具有爭議性的樣本(存在至少一個模型和其他模型預(yù)測結(jié)果不一致,但多個模型總體置信度超過閾值1),這種策略規(guī)避了特別容易學(xué)習(xí)的樣本,又通過設(shè)置閾值避免帶來過多臟數(shù)據(jù),可以帶來0-3PP的提升;

融合上面的兩種策略,若多個模型對于一個樣本的預(yù)測結(jié)果是一致的,我們選擇置信度小于閾值2的樣本;對于存在至少一個模型和其他模型預(yù)測結(jié)果不一致的,我們選擇置信度大于閾值3的樣本。這種方式同時選擇了置信度較高的樣本保證輸出的可信度,又選擇了較有爭議的樣本保證篩選出來的偽標(biāo)簽樣本具有較大學(xué)習(xí)難度,可以帶來0.4-4PP的提升。

4 小樣本學(xué)習(xí)策略在美團(tuán)場景的應(yīng)用

在美團(tuán)的各個業(yè)務(wù)中,有著豐富的NLP場景,部分任務(wù)可以歸類為文本分類任務(wù)和句間關(guān)系任務(wù),以上提到的小樣本學(xué)習(xí)策略已經(jīng)應(yīng)用于美團(tuán)點(diǎn)評的各種場景,期望在數(shù)據(jù)資源稀少的情況下訓(xùn)練出比較好的模型。此外,小樣本學(xué)習(xí)策略已經(jīng)廣泛應(yīng)用于美團(tuán)內(nèi)部自然語言處理(NLP)平臺的各個NLP算法能力中,在眾多業(yè)務(wù)場景下落地并取得顯著收益,美團(tuán)內(nèi)部的工程師可通過該平臺來體驗(yàn)NLP中心相關(guān)的能力。

文本分類任務(wù)

醫(yī)美題材分類:對美團(tuán)和點(diǎn)評的筆記內(nèi)容按題材分為8類:獵奇、探店、測評、真人案例、治療過程、避坑、效果對比、科普。用戶點(diǎn)擊某一種題材時,返回對應(yīng)的筆記內(nèi)容,上線至美團(tuán)和點(diǎn)評App醫(yī)療美容頻道的百科頁、方案頁經(jīng)驗(yàn)分享,小樣本學(xué)習(xí)利用2,989條訓(xùn)練數(shù)據(jù)準(zhǔn)確率提升1.8PP,達(dá)到了89.24%。

攻略識別:從UGC和筆記中挖掘旅游攻略,提供旅游攻略的內(nèi)容供給,應(yīng)用于景點(diǎn)精搜下的攻略模塊,召回內(nèi)容為描述旅游攻略的筆記,小樣本學(xué)習(xí)利用384條訓(xùn)練數(shù)據(jù)準(zhǔn)確率提升2PP,達(dá)到了87%。

學(xué)城文本分類:學(xué)城(美團(tuán)內(nèi)部知識庫)有大量的用戶文本,經(jīng)歸納將文本分為17種類別,已有模型在700條數(shù)據(jù)上訓(xùn)練,通過小樣本學(xué)習(xí),在已有模型上提升模型精度2.5PP,達(dá)到84%。

項(xiàng)目篩選:LE生活服務(wù)/麗人等業(yè)務(wù)目前的評價列表頁混排評價的方式不便讓用戶快速找到?jīng)Q策信息,因此需要更有結(jié)構(gòu)化的分類標(biāo)簽來滿足用戶的需求,小樣本學(xué)習(xí)在這兩個業(yè)務(wù)上利用300-500條數(shù)據(jù)上準(zhǔn)確率均達(dá)到95%+(多個數(shù)據(jù)集分別提升1.5-4PP)。

句間關(guān)系任務(wù)

醫(yī)美功效打標(biāo):對美團(tuán)和大眾點(diǎn)評的筆記內(nèi)容按功效進(jìn)行召回,功效的類型有:補(bǔ)水、美白、瘦臉、除皺等,上線至醫(yī)美頻道頁,有110種功效類型需要打標(biāo),小樣本學(xué)習(xí)僅用2909條訓(xùn)練數(shù)據(jù)準(zhǔn)確率達(dá)到了91.88%(提升2.8PP)。

醫(yī)美品牌打標(biāo):品牌上游企業(yè)有針對旗下產(chǎn)品進(jìn)行品牌宣傳和營銷的訴求,而內(nèi)容營銷是當(dāng)前主流、有效的營銷方式之一。品牌打標(biāo)就是為每種品牌如“伊膚泉”、“術(shù)唯可”召回詳細(xì)介紹該品牌的筆記內(nèi)容,共有103種品牌,已上線至醫(yī)美品牌館,小樣本學(xué)習(xí)僅用1676條訓(xùn)練數(shù)據(jù)準(zhǔn)確率達(dá)到了88.59%(提升2.9PP)。

5 總結(jié)

在本次榜單提交中,我們構(gòu)建了一種基于RoBERTa的語義理解模型,并通過增強(qiáng)預(yù)訓(xùn)練、PET/EFL模型、數(shù)據(jù)增強(qiáng)和集成學(xué)習(xí)&自訓(xùn)練來提升模型的效果。該模型能完成文本分類、句間關(guān)系推理任務(wù)和幾種閱讀理解任務(wù)。

通過參加本次測評任務(wù),我們對小樣本場景下的自然語言理解領(lǐng)域的算法和研究有了更深的認(rèn)識,也借此對前沿算法的中文落地能力進(jìn)行了摸底測試,為后續(xù)進(jìn)一步算法研究、算法落地打下了基礎(chǔ)。此外,本次數(shù)據(jù)集中的任務(wù)場景與美團(tuán)搜索與NLP部的業(yè)務(wù)場景存在很大相似性,該模型的很多策略也直接應(yīng)用在實(shí)際業(yè)務(wù)中,直接為業(yè)務(wù)賦能。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25445
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22621

原文標(biāo)題:美團(tuán)獲得小樣本學(xué)習(xí)榜單FewCLUE第一!Prompt Learning+自訓(xùn)練實(shí)戰(zhàn)

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    元戎啟行周光:VLA模型將于2025年第三季度量產(chǎn)

    元戎啟行的VLA模型將于2025年第三季度推向消費(fèi)者市場,并展示了VLA模型的四大功能——空間語義理解、異形障礙物識別、文字類引導(dǎo)牌理解、語音控車,功能將隨量產(chǎn)逐步釋放。 ? 元戎啟行
    發(fā)表于 06-12 09:45 ?1117次閱讀
    元戎啟行周光:VLA<b class='flag-5'>模型</b>將于2025年第三季度量產(chǎn)

    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL多模態(tài)理解模型

    多模態(tài)理解模型是讓AI像人類一樣,通過整合多維度信息(如視覺、語言、聽覺等),理解數(shù)據(jù)背后的語義、情感、邏輯或場景,從而完成推理、決策等任務(wù)。
    的頭像 發(fā)表于 04-18 09:30 ?1470次閱讀
    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL多模態(tài)<b class='flag-5'>理解</b><b class='flag-5'>模型</b>

    當(dāng)AI學(xué)會“秒回”……看利爾達(dá)RTC SDK AI大模型接入方案怎么做

    //在遠(yuǎn)程醫(yī)療、實(shí)時對話、在線教育、電商直播等場景中,AI的響應(yīng)速度直接決定用戶體驗(yàn)成敗。為更好地應(yīng)對市場需求,基于RTCSDK的AI大模型接入方案應(yīng)運(yùn)而生,通過語音識別、語義理解到內(nèi)容生成的全鏈路
    的頭像 發(fā)表于 03-20 18:05 ?433次閱讀
    當(dāng)AI學(xué)會“秒回”……看利爾達(dá)RTC SDK AI大<b class='flag-5'>模型</b>接入方案怎么做

    一種基于基礎(chǔ)模型對齊的自監(jiān)督三維空間理解方法

    三維空間理解是推動自動駕駛、具身智能等領(lǐng)域中智能系統(tǒng)實(shí)現(xiàn)環(huán)境感知、交互的核心任務(wù),其中3D語義占據(jù)預(yù)測 (Semantic Occupancy Prediction) 對三維場景進(jìn)行精準(zhǔn)的體素級建模。然而,當(dāng)前主流方法嚴(yán)重依賴大規(guī)模標(biāo)注數(shù)據(jù),制約了
    的頭像 發(fā)表于 03-18 15:01 ?436次閱讀
    一種基于基礎(chǔ)<b class='flag-5'>模型</b>對齊的自監(jiān)督三維空間<b class='flag-5'>理解</b>方法

    破解透明物體抓取難題,地瓜機(jī)器人 CASIA 推出幾何和語義融合的單目抓取方案|ICRA 2025

    動態(tài)語義理解框架提升復(fù)雜場景識別準(zhǔn)確率,后者結(jié)合幾何建模與語義分析技術(shù)優(yōu)化透明物體操作精度,兩項(xiàng)技術(shù)成果均已在規(guī)?;虡I(yè)場景中得到有效驗(yàn)證。
    的頭像 發(fā)表于 03-05 19:30 ?562次閱讀
    破解透明物體抓取難題,地瓜機(jī)器人 CASIA 推出幾何和<b class='flag-5'>語義</b>融合的單目抓取方案|ICRA 2025

    一種基于正交與縮放變換的大模型量化方法

    近年來,大規(guī)模語言模型(Large Language Models, LLMs)在自然語言處理領(lǐng)域取得了革命性進(jìn)展。以 GPT 系列、LLaMA 等為代表的模型,通過千億級參數(shù)的復(fù)雜結(jié)構(gòu)展現(xiàn)出強(qiáng)大的語義理解和生成能力。
    的頭像 發(fā)表于 03-04 11:10 ?479次閱讀
    一種基于正交與縮放變換的大<b class='flag-5'>模型</b>量化方法

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+Embedding技術(shù)解讀

    理和理解這些數(shù)據(jù)。在自然語言處理中,Embedding常用于將文本數(shù)據(jù)中的單詞、句子或文檔映射為固定長度的實(shí)數(shù)向量,這些向量包含了豐富的語義信息。RAG技術(shù)是一種結(jié)合信息檢索與文本生成能力的技術(shù),它通過
    發(fā)表于 01-17 19:53

    利用VLM和MLLMs實(shí)現(xiàn)SLAM語義增強(qiáng)

    語義同步定位與建圖(SLAM)系統(tǒng)在對鄰近的語義相似物體進(jìn)行建圖時面臨困境,特別是在復(fù)雜的室內(nèi)環(huán)境中。本文提出了一種面向?qū)ο骃LAM的語義增強(qiáng)(SEO-SLAM)的新型SLAM系統(tǒng),借助視覺語言
    的頭像 發(fā)表于 12-05 10:00 ?1366次閱讀
    利用VLM和MLLMs實(shí)現(xiàn)SLAM<b class='flag-5'>語義</b>增強(qiáng)

    一文理解多模態(tài)大語言模型——下

    /understanding-multimodal-llms ? 《一文理解多模態(tài)大語言模型 - 上》介紹了什么是多模態(tài)大語言模型,以及構(gòu)建多模態(tài) LLM 有兩種主要方式之一:統(tǒng)一嵌入
    的頭像 發(fā)表于 12-03 15:18 ?588次閱讀
    一文<b class='flag-5'>理解</b>多模態(tài)大語言<b class='flag-5'>模型</b>——下

    如何使用Python構(gòu)建LSTM神經(jīng)網(wǎng)絡(luò)模型

    構(gòu)建一個LSTM(長短期記憶)神經(jīng)網(wǎng)絡(luò)模型是一個涉及多個步驟的過程。以下是使用Python和Keras庫構(gòu)建LSTM模型的指南。 1. 安裝必要的庫 首先,確保你已經(jīng)安裝了Python
    的頭像 發(fā)表于 11-13 10:10 ?1571次閱讀

    如何設(shè)定機(jī)器人語義地圖的細(xì)粒度級別

    和區(qū)域與封閉的語義標(biāo)簽集對應(yīng)的工作。然而,封閉集檢測在能夠表示的概念集方面存在固有的限制,并且不能很好地處理自然語言的內(nèi)在歧義性和可變性。為了克服這些限制,一組新的方法開始利用視覺語言基礎(chǔ)模型進(jìn)行開放集語義理解。這
    的頭像 發(fā)表于 11-12 10:54 ?674次閱讀
    如何設(shè)定機(jī)器人<b class='flag-5'>語義</b>地圖的細(xì)粒度級別

    AI大模型在自然語言處理中的應(yīng)用

    AI大模型在自然語言處理(NLP)中的應(yīng)用廣泛且深入,其強(qiáng)大的語義理解和生成能力為NLP任務(wù)帶來了顯著的性能提升。以下是對AI大模型在NLP中應(yīng)用的介紹: 一、核心應(yīng)用 文本生成 AI大模型
    的頭像 發(fā)表于 10-23 14:38 ?1540次閱讀

    摩爾線程正式開源音頻理解模型MooER

    近日,國內(nèi)領(lǐng)先的GPU創(chuàng)新企業(yè)摩爾線程宣布了一項(xiàng)重大技術(shù)突破——正式開源其自主研發(fā)的音頻理解模型MooER(摩耳)。這一舉動標(biāo)志著我國在音頻處理與理解領(lǐng)域邁出了堅(jiān)實(shí)的一步,特別是在基于國產(chǎn)硬件的AI
    的頭像 發(fā)表于 08-27 15:24 ?914次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

    的信息,提供更全面的上下文理解。這使得模型能夠更準(zhǔn)確地理解復(fù)雜問題中的多個層面和隱含意義。 2. 語義分析 模型通過訓(xùn)練學(xué)習(xí)到語言的
    發(fā)表于 08-02 11:03

    圖像語義分割的實(shí)用性是什么

    圖像語義分割是一種重要的計(jì)算機(jī)視覺任務(wù),它旨在將圖像中的每個像素分配到相應(yīng)的語義類別中。這項(xiàng)技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動駕駛、醫(yī)學(xué)圖像分析、機(jī)器人導(dǎo)航等。 一、圖像語義分割的基本原理 1.1
    的頭像 發(fā)表于 07-17 09:56 ?915次閱讀