chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

模型與人類的注意力視角下參數(shù)規(guī)模擴(kuò)大與指令微調(diào)對(duì)模型語言理解的作用

深度學(xué)習(xí)自然語言處理 ? 來源:南大NLP ? 2024-01-04 14:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

01

研究動(dòng)機(jī)

近期的大語言模型(LLM)在自然語言理解和生成上展現(xiàn)出了接近人類的強(qiáng)大能力,遠(yuǎn)遠(yuǎn)優(yōu)于先前的BERT等預(yù)訓(xùn)練模型(PLM)。然而,尚不清楚這是否意味著模型的計(jì)算過程更加接近了人類的語言感知方式。此前的研究表明,與人類行為和神經(jīng)數(shù)據(jù)具有更高相關(guān)性的模型,在自然語言任務(wù)上的表現(xiàn)也越好[1],但在大模型技術(shù)井噴的當(dāng)下,最新、性能最強(qiáng)的大模型是否仍然與人類數(shù)據(jù)相關(guān),也需要進(jìn)一步檢驗(yàn)。

同時(shí),LLM較PLM等先前模型等能力提升的背后機(jī)制尚不清楚。由于現(xiàn)有LLM的基本架構(gòu)與先前模型一樣是Transformer架構(gòu),因此這種提升很可能來自與訓(xùn)練過程的差異:可能來自于擴(kuò)大了的參數(shù)和數(shù)據(jù)規(guī)模,也可能來自于預(yù)訓(xùn)練后的指令微調(diào)。

為了解決上述的兩方面問題,本文嘗試比較LLM與人類閱讀時(shí)行為數(shù)據(jù)的相關(guān)性,通過比較擴(kuò)大規(guī)模與指令微調(diào)兩個(gè)因素對(duì)于LLM語言理解過程的作用,幫助人們更好地認(rèn)識(shí)LLM的運(yùn)行機(jī)制。由于自注意力(self-attention)機(jī)制是Transformer模型的關(guān)鍵機(jī)制,并且天然與人類的注意力機(jī)制在形式上相似,因此適合用來分析和解釋模型的計(jì)算過程。本文收集了現(xiàn)有的不同種類(LLaMA,Alpaca,Vicuna)不同大小(7B到65B)的開源LLM在英文文本上的自注意力矩陣進(jìn)行對(duì)比分析,并計(jì)算了它們與人類閱讀相同文本時(shí)的眼動(dòng)數(shù)據(jù)的相關(guān)性,有效分析了兩個(gè)因素的作用。

02

貢獻(xiàn)

本文的分析主要包括三方面:一,我們逐層計(jì)算了不同LLM在所選文本數(shù)據(jù)上的注意力分布差異;二,我們?cè)u(píng)估并比較了不同LLM與人類眼動(dòng)數(shù)據(jù)的相似度;三,我們分析了模型注意力矩陣對(duì)常見平凡特征的依賴性,并展示了這種依賴性與模型語言理解特點(diǎn)的關(guān)系。本文的主要發(fā)現(xiàn)有:

1)規(guī)模擴(kuò)大可以顯著改變模型在普通文本上的注意力分布,而指令微調(diào)對(duì)此的改變較為有限。然而,指令微調(diào)可以提高模型對(duì)指令前綴的敏感程度;

2)LLM的人類相似度越高,語言建模的能力也越好。規(guī)模擴(kuò)大對(duì)人類相似度的提高基本符合縮放法則[2],而指令微調(diào)反而降低了人類相似度。同時(shí),雖然所有模型都以英文為主訓(xùn)練,但它們都與英語為第二語言的人群(L2)有更高的相似度,而不是母語人群(L1);

3)規(guī)模擴(kuò)大可以顯著降低模型對(duì)平凡特征的依賴性,而指令微調(diào)不能。同時(shí),L2的眼動(dòng)模式也比L1更加依賴于平凡特征。

03

方法

3.1 比較不同模型的注意力差異

我們使用Jensen-Shannon (J-S) 散度來比較不同模型在相同輸入句子上的注意力分布差別。比較具有相同層數(shù)的模型時(shí),我們逐層計(jì)算此J-S散度;比較具有不同層數(shù)的模型時(shí),我們分別將兩個(gè)模型的層平均分為4部分,比較每個(gè)部分的平均注意力的J-S散度。

為了幫助判斷J-S散度的大小,我們提出用Vicuna v0 與 v1.1的注意力J-S散度作為其他比較的參考值。兩個(gè)模型擁有一致的架構(gòu)、大小與訓(xùn)練數(shù)據(jù),只是數(shù)據(jù)格式有較小的差別。當(dāng)其他兩個(gè)模型的J-S散度大于此參考值時(shí),我們認(rèn)為這是注意力模式上的較大差別,反之則是較小的差別。

此J-S散度也被用來比較模型在普通文本與指令文本上的注意力分布差別。我們?cè)谄胀ㄎ谋镜拿總€(gè)句子前加上指令前綴,如“Please translate this sentence into German:”,并在計(jì)算J-S散度時(shí)將前綴部分的注意力分?jǐn)?shù)忽略,計(jì)算添加指令前后,模型注意力的J-S散度。同時(shí),我們還使用了一個(gè)噪聲前綴進(jìn)行同樣的實(shí)驗(yàn),作為控制組,更好地評(píng)價(jià)指令前綴的影響。

3.2 模型與人類眼動(dòng)的相似度

人類眼動(dòng)數(shù)據(jù)的形式如圖1所示。我們將模型的每個(gè)注意力頭作為一個(gè)自變量,將人類注意力作為目標(biāo),建立線性回歸模型,計(jì)算此模型的擬合分?jǐn)?shù),并與人類被試之間的擬合分?jǐn)?shù)作商,作為人類相似度分?jǐn)?shù)。

4b909f5e-aab8-11ee-8b88-92fbcf53809c.png

圖1 單人與群體平均的眼動(dòng)矩陣示例

3.3 平凡特征依賴性

已有研究表明,Transformer模型的注意力模式可能包含一些簡單、固定的特征,包括每個(gè)詞都關(guān)注句子中第一個(gè)詞、每個(gè)詞都關(guān)注自身、每個(gè)詞都關(guān)注前一個(gè)詞等[3,4]。我們將這三種平凡特征作為自變量,人類注意力與模型注意力分別作為目標(biāo),建立線性回歸模型,同樣計(jì)算擬合分?jǐn)?shù),作為對(duì)這三種平凡特征的依賴性的度量。

04

實(shí)驗(yàn)

我們使用了Reading Brain數(shù)據(jù)集[5]中的文本和人類行為數(shù)據(jù)。文本數(shù)據(jù)包括5篇英語說明文,人類行為數(shù)據(jù)包括52名英語母語者與56名非母語者的數(shù)據(jù)。對(duì)于眼動(dòng)數(shù)據(jù),我們使用眼跳動(dòng)次數(shù),而不是注視時(shí)間,以減少其他因素(如單詞長度)對(duì)眼動(dòng)數(shù)據(jù)的影響。對(duì)于LLM,我們選用了774M(GPT-2 Large),7B(LLaMA, Alpaca, Vicuna),13B(LLaMA, Alpaca, Vicuna),65B(LLaMA)的多個(gè)模型。

4.1 模型注意力分布差異

隨著參數(shù)規(guī)模擴(kuò)大,模型注意力分布發(fā)生顯著變化,而指令微調(diào)的作用有限。圖2展示了不同大小模型的J-S散度結(jié)果。結(jié)果顯示,LLaMA,Alpaca和Vicuna模型均在7B與13B大小之間顯示出較大的注意力分布差異,說明參數(shù)規(guī)模擴(kuò)大對(duì)整體注意力分布有較大改變。圖3展示了-經(jīng)過指令微調(diào)(Alpaca,Vicuna)與未經(jīng)過(LLaMA)的模型注意力的J-S散度結(jié)果。結(jié)果表明,只有Vicuna 13B模型較微調(diào)前產(chǎn)生了高于參考值的注意力散度,說明指令微調(diào)對(duì)整體注意力分布的影響有限。

4b9fedf6-aab8-11ee-8b88-92fbcf53809c.png

圖2 7B與13B模型注意力的平均J-S散度

然而,指令微調(diào)提高了模型對(duì)指令前綴的敏感程度。圖4顯示了不同模型在普通文本與指令文本上的注意力J-S散度,可以發(fā)現(xiàn),所有模型均在兩種文本上顯示出了高于參考值的注意力差異,但這種差異在LLaMA(未經(jīng)過指令微調(diào))的深層逐漸衰減,在Alpaca和Vicuna的深層卻保持在較高水平。這種現(xiàn)象在噪聲前綴的場景下沒有出現(xiàn)。這說明在指令微調(diào)前,模型已經(jīng)具備了一定的識(shí)別指令前綴的能力,但這種能力主要集中在模型淺層;在指令微調(diào)后,模型識(shí)別指令前綴的能力向深層移動(dòng),因此能對(duì)模型的生成過程產(chǎn)生更直接的改變。

4bb789f2-aab8-11ee-8b88-92fbcf53809c.png

圖3 經(jīng)過與未經(jīng)過指令微調(diào)的模型注意力的J-S散度

4bd0b382-aab8-11ee-8b88-92fbcf53809c.png

圖4 普通文本與指令文本上的模型注意力的J-S散度

4.2 人類相似度

人類相似度與語言建模能力正相關(guān)。圖5展示了各個(gè)模型在Reading Brain數(shù)據(jù)集的文本上的下一個(gè)單詞預(yù)測(Next Token Prediction, NTP)損失與它們所有層中最大的人類相似度分?jǐn)?shù),以及兩者的線性關(guān)系。可以發(fā)現(xiàn),人類相似度越高,NTP損失越低,即語言建模能力越強(qiáng)。這說明人類相似度分?jǐn)?shù)的確與語言感知能力有關(guān)。

4bf3221e-aab8-11ee-8b88-92fbcf53809c.png

圖5 各模型的NTP損失與人類相似度及其相關(guān)性

參數(shù)規(guī)模擴(kuò)大能夠提升人類相似度,而指令微調(diào)會(huì)降低人類相似度。圖6展示了未經(jīng)過指令微調(diào)的不同大小模型(GPT-2 774M到LLaMA 65B)的所有層中,最大的人類相似度分?jǐn)?shù)。可以發(fā)現(xiàn),隨著參數(shù)規(guī)模的指數(shù)增加,模型的人類相似度分?jǐn)?shù)約呈現(xiàn)線性提升,符合縮放法則。表1則展示了7B與13B的LLaMA模型在指令微調(diào)前后的人類相似度??梢园l(fā)現(xiàn),指令微調(diào)不僅不能提升人類相似度,反而會(huì)造成輕微的降低。相對(duì)t檢驗(yàn)結(jié)果顯示,指令微調(diào)顯著降低人類相似度的層數(shù),遠(yuǎn)高于顯著提升人類相似度的層數(shù)。

4bff78b6-aab8-11ee-8b88-92fbcf53809c.png

圖6 不同大小模型的所有層中最大的人類相似度分?jǐn)?shù)

表1 指令微調(diào)前后模型的人類相似度

4c09c7f8-aab8-11ee-8b88-92fbcf53809c.png

4.3 平凡特征依賴性

參數(shù)規(guī)模擴(kuò)大可以降低平凡特征依賴性,而指令微調(diào)會(huì)提高平凡特征依賴性。圖7展示了7B模型到13B模型到平凡特征依賴性分?jǐn)?shù)變化,可以發(fā)現(xiàn)尤其在深層,模型的依賴性分?jǐn)?shù)發(fā)生了較大下降。反之,圖8展示了指令微調(diào)前后模型平凡特征依賴性分?jǐn)?shù)的變化,可以發(fā)現(xiàn)依賴性分?jǐn)?shù)在深層上升了。這說明參數(shù)規(guī)模擴(kuò)大可以讓模型的語言理解過程更加靈活,而指令微調(diào)則會(huì)讓其更加固定。

4c1bf658-aab8-11ee-8b88-92fbcf53809c.png

圖7 7B到13B大小的平凡特征依賴性分?jǐn)?shù)變化

4c27c35c-aab8-11ee-8b88-92fbcf53809c.png

圖8 指令微調(diào)后的平凡特征依賴性分?jǐn)?shù)變化

L2對(duì)平凡特征的依賴程度更高。表2展示了L1與L2人群的眼動(dòng)模式對(duì)平凡特征的依賴性分?jǐn)?shù)??梢园l(fā)現(xiàn),L2在最小值、最大值與平均值上均高于L1,獨(dú)立t檢驗(yàn)結(jié)果也支持L2分?jǐn)?shù)顯著高于L1。這說明非母語人群在閱讀英語文本時(shí)的眼動(dòng)模式比母語人群顯示出更多的固定、簡單模式。

表2 L1與L2的平凡特征依賴性分?jǐn)?shù),SE為標(biāo)準(zhǔn)差

4c36c6ea-aab8-11ee-8b88-92fbcf53809c.png

05

總結(jié)

本文評(píng)估了參數(shù)規(guī)模擴(kuò)大與指令微調(diào)對(duì)模型在自然語言理解過程中的注意力的影響。我們發(fā)現(xiàn),參數(shù)規(guī)模擴(kuò)大可以有效改變模型的整體注意力分布,提高模型的人類相似度,并降低模型對(duì)平凡特征的依賴程度;而指令微調(diào)基本上起到相反的效果,但也會(huì)提高模型對(duì)指令內(nèi)容的敏感性。同時(shí),我們的結(jié)果也展示出,目前的以英語為主的開源LLM的注意力模式更接近非英語母語者的眼動(dòng)模式,提示了當(dāng)前模型與人類在語言感知上的差異。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • PLM
    PLM
    +關(guān)注

    關(guān)注

    2

    文章

    140

    瀏覽量

    21471
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10797
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    325

    瀏覽量

    844

原文標(biāo)題:EMNLP2023 | 模型與人類的注意力視角下參數(shù)規(guī)模擴(kuò)大與指令微調(diào)對(duì)模型語言理解的作用

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【大語言模型:原理與工程實(shí)踐】揭開大語言模型的面紗

    Transformer架構(gòu),利用自注意力機(jī)制對(duì)文本進(jìn)行編碼,通過預(yù)訓(xùn)練、有監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)等階段,不斷提升性能,展現(xiàn)出強(qiáng)大的語言理解和生成能力。 大
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    模型仍以Transformer為基礎(chǔ)進(jìn)行訓(xùn)練。Transformer是一種基于自注意力機(jī)制的編碼器-解碼器結(jié)構(gòu),其核心由編碼器和解碼器組成,每個(gè)部分均由多個(gè)相同層堆疊而成。自注意力機(jī)制使
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實(shí)踐】大語言模型的評(píng)測

    的工具。通過這一框架,研究人員和使用者可以更準(zhǔn)確地了解模型在實(shí)際應(yīng)用中的表現(xiàn),為后續(xù)的優(yōu)化和產(chǎn)品化提供有力支持。針對(duì)語言理解類評(píng)測任務(wù),特別是古文及諺語理解,我們深入評(píng)估了
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實(shí)踐】大語言模型的應(yīng)用

    。 關(guān)于大語言模型是否具備與人類“系統(tǒng)2”相似的能力,存在廣泛的爭議。然而,隨著模型參數(shù)量的增加和大規(guī)
    發(fā)表于 05-07 17:21

    【大規(guī)模語言模型:從理論到實(shí)踐】- 閱讀體驗(yàn)

    再次感謝電子發(fā)燒友提供的書籍試讀機(jī)會(huì)。今天來分享我在學(xué)習(xí)大模型訓(xùn)練中 注意力機(jī)制 的心得體會(huì)。 雖然注意力機(jī)制可以顯著提高模型處理長序列數(shù)
    發(fā)表于 06-07 14:44

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    并捕捉長距離依賴關(guān)系的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。Transformer通過編碼器(Encoder)和解碼器(Decoder)兩部分實(shí)現(xiàn)語言的編碼和解碼。 注意力機(jī)制:Transformer中的注意力機(jī)制使得
    發(fā)表于 08-02 11:03

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    微調(diào):通過在預(yù)訓(xùn)練模型中插入適配器模塊來適應(yīng)特定任務(wù),既保留了原始模型的性能,又能快速適應(yīng)新任務(wù)。Prefix-Tuning:通過在輸入序列的前面添加特定前綴來微調(diào)
    發(fā)表于 01-14 16:51

    基于注意力機(jī)制的深度學(xué)習(xí)模型AT-DPCNN

    情感分析是自然語言處理領(lǐng)域的一個(gè)重要分支,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在文本情感分析方面取得了較好的效果,但其未充分提取文本信息中的關(guān)鍵情感信息。為此,建立一種基于注意力機(jī)制的深度學(xué)習(xí)模型AT-
    發(fā)表于 03-17 09:53 ?12次下載
    基于<b class='flag-5'>注意力</b>機(jī)制的深度學(xué)習(xí)<b class='flag-5'>模型</b>AT-DPCNN

    一種注意力增強(qiáng)的自然語言推理模型aESIM

    在自然語言處理任務(wù)中使用注意力機(jī)制可準(zhǔn)確衡量單詞重要度。為此,提出一種注意力增強(qiáng)的自然語言推理模型aESM。將詞
    發(fā)表于 03-25 11:34 ?9次下載
    一種<b class='flag-5'>注意力</b>增強(qiáng)的自然<b class='flag-5'>語言</b>推理<b class='flag-5'>模型</b>aESIM

    基于語音、字形和語義的層次注意力神經(jīng)網(wǎng)絡(luò)模型

    結(jié)合英文幽默語言學(xué)特征,提出基于語音、字形和語義的層次注意力神經(jīng)網(wǎng)絡(luò)模型( PFSHAN)進(jìn)行幽默識(shí)別。在特征提取階段,將幽默文本表示為音素、字符以及攜帶歧義性等級(jí)信息的語義形式,分別采用卷積
    發(fā)表于 03-26 15:38 ?14次下載
    基于語音、字形和語義的層次<b class='flag-5'>注意力</b>神經(jīng)網(wǎng)絡(luò)<b class='flag-5'>模型</b>

    基于多層CNN和注意力機(jī)制的文本摘要模型

    基于注意力機(jī)制的編解碼模型在文本摘要、杌器翻譯等序列到序列任務(wù)上得到了廣泛的應(yīng)用。在深度學(xué)習(xí)框架中,深層神經(jīng)網(wǎng)絡(luò)能夠提取輸λ數(shù)據(jù)不冋的特征表示,因此傳統(tǒng)編解碼模型中通常堆疊多層解碼器來提高模型
    發(fā)表于 04-07 11:35 ?2次下載
    基于多層CNN和<b class='flag-5'>注意力</b>機(jī)制的文本摘要<b class='flag-5'>模型</b>

    基于循環(huán)卷積注意力模型的文本情感分類方法

    和全局信息。文中針對(duì)單標(biāo)記和多標(biāo)記情感分類任務(wù),提出一種循環(huán)卷積注意力模型( LSTM-CNN-ATT,LCA)。該模型利用注意力機(jī)制融合卷積神經(jīng)網(wǎng)絡(luò)( Convolutional n
    發(fā)表于 04-14 14:39 ?10次下載
    基于循環(huán)卷積<b class='flag-5'>注意力</b><b class='flag-5'>模型</b>的文本情感分類方法

    基于注意力機(jī)制等的社交網(wǎng)絡(luò)熱度預(yù)測模型

    基于注意力機(jī)制等的社交網(wǎng)絡(luò)熱度預(yù)測模型
    發(fā)表于 06-07 15:12 ?14次下載

    基于注意力機(jī)制的新聞文本分類模型

    基于注意力機(jī)制的新聞文本分類模型
    發(fā)表于 06-27 15:32 ?30次下載

    PyTorch教程-16.5。自然語言推理:使用注意力

    )提出用注意力機(jī)制解決自然語言推理,并將其稱為“可分解注意力模型”。這導(dǎo)致模型沒有循環(huán)層或卷積層,在 SNLI 數(shù)據(jù)集上以更少的
    的頭像 發(fā)表于 06-05 15:44 ?808次閱讀
    PyTorch教程-16.5。自然<b class='flag-5'>語言</b>推理:使用<b class='flag-5'>注意力</b>