在測(cè)試集上預(yù)訓(xùn)練?這聽起來似乎有點(diǎn)不合常規(guī),但別急,繼續(xù)往下看!
文章以一項(xiàng)大膽的實(shí)驗(yàn)為開端,作者創(chuàng)造了一個(gè)高質(zhì)量的數(shù)據(jù)集,然而,這個(gè)數(shù)據(jù)集并非來自于人為合成,而是源自huggingface上的眾多評(píng)估基準(zhǔn)數(shù)據(jù)。
借助這一數(shù)據(jù)集完成了一個(gè)基于 Transformer 的語(yǔ)言模型的預(yù)訓(xùn)練,這個(gè)模型被命名為 phi-CTNL(發(fā)音為“fictional”)。
令人驚訝的是,phi-CTNL 在各類學(xué)術(shù)基準(zhǔn)測(cè)試中表現(xiàn)得相當(dāng)完美,勝過了所有已知的模型。
該研究還發(fā)現(xiàn),phi-CTNL 在預(yù)訓(xùn)練計(jì)算方面超越了神秘的冪律擴(kuò)展法則。隨著訓(xùn)練輪次的增加,它的性能快速趨近于零。

此外,phi-CTNL 似乎具備某種超自然的理解能力。在學(xué)習(xí)過程中,它能夠快速而準(zhǔn)確地預(yù)測(cè)下游評(píng)估的指標(biāo)。

是的,這篇文章可不是在搞笑,而是要諷刺那些以前不知道眼前有坑的學(xué)術(shù)研究。
作者認(rèn)為,盡管評(píng)估和基準(zhǔn)測(cè)試對(duì)于語(yǔ)言模型的發(fā)展至關(guān)重要,但這個(gè)領(lǐng)域經(jīng)常受到夸夸其談的宣傳,卻忽視了數(shù)據(jù)污染的潛在風(fēng)險(xiǎn)。
作者甚至含蓄地點(diǎn)名了一些模型,例如 phi-1、TinyStories 和 phi-1.5。告誡我們,不要相信任何一個(gè)沒有隔離數(shù)據(jù)污染的LLM模型。
這些模型做錯(cuò)了什么呢?
一個(gè)在推上測(cè)試Phi-1.5的例子引發(fā)了眾多討論。例如,如果你截?cái)嘞聢D這個(gè)問題并輸入給Phi-1.5,它會(huì)自動(dòng)完成為計(jì)算第三個(gè)月的下載數(shù)量,并且回答是正確的。

稍微改變一下數(shù)字,它也會(huì)正確回答。

但是一旦你變換格式,它就會(huì)完全出錯(cuò)。(這里的格式變化是保留了提示中的所有 ' '。)

另一個(gè)例子是一個(gè)關(guān)于蘋果的數(shù)學(xué)計(jì)算問題,phi模型最初可以正確回答問題。

然而,一旦我們改變其中的一個(gè)數(shù)字,例如從8.5改成7.5,模型會(huì)開始出現(xiàn)幻覺現(xiàn)象。

為了檢查2這個(gè)數(shù)字有沒有被記憶,我們可以把pizza的價(jià)格改成10.5.但是phd依然繼續(xù)輸出2(應(yīng)該為1)。

基于這些發(fā)現(xiàn),研究人員認(rèn)為Phi-1.5模型的數(shù)據(jù)污染問題很嚴(yán)重。
通過以不合常規(guī)的方式預(yù)訓(xùn)練模型,這篇文章提醒我們強(qiáng)調(diào)了數(shù)據(jù)污染的危險(xiǎn)性。告誡我們,不要相信任何一個(gè)沒有隔離數(shù)據(jù)污染的LLM模型。
-
模型
+關(guān)注
關(guān)注
1文章
3645瀏覽量
51685 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1229瀏覽量
26031 -
nlp
+關(guān)注
關(guān)注
1文章
491瀏覽量
23182
原文標(biāo)題:這篇究極諷刺的文章一出,NLP無了
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
“黑科技”一出誰與爭(zhēng)鋒 盤點(diǎn)15個(gè)顛覆想象的機(jī)器人
基于卷積神經(jīng)網(wǎng)絡(luò)的組合模型處理NLP任務(wù)諷刺檢測(cè)
HDMI2.0 二進(jìn)一出KVM轉(zhuǎn)換器電路設(shè)計(jì)資料AG7231參考電路
NLP的介紹和如何利用機(jī)器學(xué)習(xí)進(jìn)行NLP以及三種NLP技術(shù)的詳細(xì)介紹
智能制造是中國(guó)制造業(yè)的唯一出路
NLP-Progress庫(kù)NLP的最新數(shù)據(jù)集、論文和代碼
NLP 2019 Highlights 給NLP從業(yè)者的一個(gè)參考
針對(duì)社交媒體的評(píng)論諷刺檢測(cè)模型
【技術(shù)分享】屏閃鬧的是哪一出?

這篇究極諷刺的文章一出,NLP無了
評(píng)論