国产精品视频一区麻豆,色欲77,av熟女人妻先锋影音先锋

研究動(dòng)機(jī)

近期的大語言模型（LLM）在自然語言理解和生成上展現(xiàn)出了接近人類的強(qiáng)大能力，遠(yuǎn)遠(yuǎn)優(yōu)于先前的BERT等預(yù)訓(xùn)練模型（PLM）。然而，尚不清楚這是否意味著模型的計(jì)算過程更加接近了人類的語言感知方式。此前的研究表明，與人類行為和神經(jīng)數(shù)據(jù)具有更高相關(guān)性的模型，在自然語言任務(wù)上的表現(xiàn)也越好[1]，但在大模型技術(shù)井噴的當(dāng)下，最新、性能最強(qiáng)的大模型是否仍然與人類數(shù)據(jù)相關(guān)，也需要進(jìn)一步檢驗(yàn)。

同時(shí)，LLM較PLM等先前模型等能力提升的背后機(jī)制尚不清楚。由于現(xiàn)有LLM的基本架構(gòu)與先前模型一樣是Transformer架構(gòu)，因此這種提升很可能來自與訓(xùn)練過程的差異：可能來自于擴(kuò)大了的參數(shù)和數(shù)據(jù)規(guī)模，也可能來自于預(yù)訓(xùn)練后的指令微調(diào)。

為了解決上述的兩方面問題，本文嘗試比較LLM與人類閱讀時(shí)行為數(shù)據(jù)的相關(guān)性，通過比較擴(kuò)大規(guī)模與指令微調(diào)兩個(gè)因素對(duì)于LLM語言理解過程的作用，幫助人們更好地認(rèn)識(shí)LLM的運(yùn)行機(jī)制。由于自注意力（self-attention）機(jī)制是Transformer模型的關(guān)鍵機(jī)制，并且天然與人類的注意力機(jī)制在形式上相似，因此適合用來分析和解釋模型的計(jì)算過程。本文收集了現(xiàn)有的不同種類（LLaMA，Alpaca，Vicuna）不同大小（7B到65B）的開源LLM在英文文本上的自注意力矩陣進(jìn)行對(duì)比分析，并計(jì)算了它們與人類閱讀相同文本時(shí)的眼動(dòng)數(shù)據(jù)的相關(guān)性，有效分析了兩個(gè)因素的作用。

貢獻(xiàn)

本文的分析主要包括三方面：一，我們逐層計(jì)算了不同LLM在所選文本數(shù)據(jù)上的注意力分布差異；二，我們?cè)u(píng)估并比較了不同LLM與人類眼動(dòng)數(shù)據(jù)的相似度；三，我們分析了模型注意力矩陣對(duì)常見平凡特征的依賴性，并展示了這種依賴性與模型語言理解特點(diǎn)的關(guān)系。本文的主要發(fā)現(xiàn)有：

1）規(guī)模擴(kuò)大可以顯著改變模型在普通文本上的注意力分布，而指令微調(diào)對(duì)此的改變較為有限。然而，指令微調(diào)可以提高模型對(duì)指令前綴的敏感程度；

2）LLM的人類相似度越高，語言建模的能力也越好。規(guī)模擴(kuò)大對(duì)人類相似度的提高基本符合縮放法則[2]，而指令微調(diào)反而降低了人類相似度。同時(shí)，雖然所有模型都以英文為主訓(xùn)練，但它們都與英語為第二語言的人群（L2）有更高的相似度，而不是母語人群（L1）；

3）規(guī)模擴(kuò)大可以顯著降低模型對(duì)平凡特征的依賴性，而指令微調(diào)不能。同時(shí)，L2的眼動(dòng)模式也比L1更加依賴于平凡特征。

方法

3.1 比較不同模型的注意力差異

我們使用Jensen-Shannon (J-S) 散度來比較不同模型在相同輸入句子上的注意力分布差別。比較具有相同層數(shù)的模型時(shí)，我們逐層計(jì)算此J-S散度；比較具有不同層數(shù)的模型時(shí)，我們分別將兩個(gè)模型的層平均分為4部分，比較每個(gè)部分的平均注意力的J-S散度。

為了幫助判斷J-S散度的大小，我們提出用Vicuna v0 與 v1.1的注意力J-S散度作為其他比較的參考值。兩個(gè)模型擁有一致的架構(gòu)、大小與訓(xùn)練數(shù)據(jù)，只是數(shù)據(jù)格式有較小的差別。當(dāng)其他兩個(gè)模型的J-S散度大于此參考值時(shí)，我們認(rèn)為這是注意力模式上的較大差別，反之則是較小的差別。

此J-S散度也被用來比較模型在普通文本與指令文本上的注意力分布差別。我們?cè)谄胀ㄎ谋镜拿總€(gè)句子前加上指令前綴，如“Please translate this sentence into German:”，并在計(jì)算J-S散度時(shí)將前綴部分的注意力分?jǐn)?shù)忽略，計(jì)算添加指令前后，模型注意力的J-S散度。同時(shí)，我們還使用了一個(gè)噪聲前綴進(jìn)行同樣的實(shí)驗(yàn)，作為控制組，更好地評(píng)價(jià)指令前綴的影響。

3.2 模型與人類眼動(dòng)的相似度

人類眼動(dòng)數(shù)據(jù)的形式如圖1所示。我們將模型的每個(gè)注意力頭作為一個(gè)自變量，將人類注意力作為目標(biāo)，建立線性回歸模型，計(jì)算此模型的擬合分?jǐn)?shù)，并與人類被試之間的擬合分?jǐn)?shù)作商，作為人類相似度分?jǐn)?shù)。

圖1 單人與群體平均的眼動(dòng)矩陣示例

3.3 平凡特征依賴性

已有研究表明，Transformer模型的注意力模式可能包含一些簡單、固定的特征，包括每個(gè)詞都關(guān)注句子中第一個(gè)詞、每個(gè)詞都關(guān)注自身、每個(gè)詞都關(guān)注前一個(gè)詞等[3,4]。我們將這三種平凡特征作為自變量，人類注意力與模型注意力分別作為目標(biāo)，建立線性回歸模型，同樣計(jì)算擬合分?jǐn)?shù)，作為對(duì)這三種平凡特征的依賴性的度量。

實(shí)驗(yàn)

我們使用了Reading Brain數(shù)據(jù)集[5]中的文本和人類行為數(shù)據(jù)。文本數(shù)據(jù)包括5篇英語說明文，人類行為數(shù)據(jù)包括52名英語母語者與56名非母語者的數(shù)據(jù)。對(duì)于眼動(dòng)數(shù)據(jù)，我們使用眼跳動(dòng)次數(shù)，而不是注視時(shí)間，以減少其他因素（如單詞長度）對(duì)眼動(dòng)數(shù)據(jù)的影響。對(duì)于LLM，我們選用了774M（GPT-2 Large），7B（LLaMA, Alpaca, Vicuna），13B（LLaMA, Alpaca, Vicuna），65B（LLaMA）的多個(gè)模型。

4.1 模型注意力分布差異

隨著參數(shù)規(guī)模擴(kuò)大，模型注意力分布發(fā)生顯著變化，而指令微調(diào)的作用有限。圖2展示了不同大小模型的J-S散度結(jié)果。結(jié)果顯示，LLaMA，Alpaca和Vicuna模型均在7B與13B大小之間顯示出較大的注意力分布差異，說明參數(shù)規(guī)模擴(kuò)大對(duì)整體注意力分布有較大改變。圖3展示了-經(jīng)過指令微調(diào)（Alpaca，Vicuna）與未經(jīng)過（LLaMA）的模型注意力的J-S散度結(jié)果。結(jié)果表明，只有Vicuna 13B模型較微調(diào)前產(chǎn)生了高于參考值的注意力散度，說明指令微調(diào)對(duì)整體注意力分布的影響有限。

圖2 7B與13B模型注意力的平均J-S散度

然而，指令微調(diào)提高了模型對(duì)指令前綴的敏感程度。圖4顯示了不同模型在普通文本與指令文本上的注意力J-S散度，可以發(fā)現(xiàn)，所有模型均在兩種文本上顯示出了高于參考值的注意力差異，但這種差異在LLaMA（未經(jīng)過指令微調(diào)）的深層逐漸衰減，在Alpaca和Vicuna的深層卻保持在較高水平。這種現(xiàn)象在噪聲前綴的場景下沒有出現(xiàn)。這說明在指令微調(diào)前，模型已經(jīng)具備了一定的識(shí)別指令前綴的能力，但這種能力主要集中在模型淺層；在指令微調(diào)后，模型識(shí)別指令前綴的能力向深層移動(dòng)，因此能對(duì)模型的生成過程產(chǎn)生更直接的改變。

圖3 經(jīng)過與未經(jīng)過指令微調(diào)的模型注意力的J-S散度

圖4 普通文本與指令文本上的模型注意力的J-S散度

4.2 人類相似度

人類相似度與語言建模能力正相關(guān)。圖5展示了各個(gè)模型在Reading Brain數(shù)據(jù)集的文本上的下一個(gè)單詞預(yù)測（Next Token Prediction, NTP）損失與它們所有層中最大的人類相似度分?jǐn)?shù)，以及兩者的線性關(guān)系。可以發(fā)現(xiàn)，人類相似度越高，NTP損失越低，即語言建模能力越強(qiáng)。這說明人類相似度分?jǐn)?shù)的確與語言感知能力有關(guān)。

圖5 各模型的NTP損失與人類相似度及其相關(guān)性

參數(shù)規(guī)模擴(kuò)大能夠提升人類相似度，而指令微調(diào)會(huì)降低人類相似度。圖6展示了未經(jīng)過指令微調(diào)的不同大小模型（GPT-2 774M到LLaMA 65B）的所有層中，最大的人類相似度分?jǐn)?shù)。可以發(fā)現(xiàn)，隨著參數(shù)規(guī)模的指數(shù)增加，模型的人類相似度分?jǐn)?shù)約呈現(xiàn)線性提升，符合縮放法則。表1則展示了7B與13B的LLaMA模型在指令微調(diào)前后的人類相似度?？梢园l(fā)現(xiàn)，指令微調(diào)不僅不能提升人類相似度，反而會(huì)造成輕微的降低。相對(duì)t檢驗(yàn)結(jié)果顯示，指令微調(diào)顯著降低人類相似度的層數(shù)，遠(yuǎn)高于顯著提升人類相似度的層數(shù)。

圖6 不同大小模型的所有層中最大的人類相似度分?jǐn)?shù)

表1 指令微調(diào)前后模型的人類相似度

4.3 平凡特征依賴性

參數(shù)規(guī)模擴(kuò)大可以降低平凡特征依賴性，而指令微調(diào)會(huì)提高平凡特征依賴性。圖7展示了7B模型到13B模型到平凡特征依賴性分?jǐn)?shù)變化，可以發(fā)現(xiàn)尤其在深層，模型的依賴性分?jǐn)?shù)發(fā)生了較大下降。反之，圖8展示了指令微調(diào)前后模型平凡特征依賴性分?jǐn)?shù)的變化，可以發(fā)現(xiàn)依賴性分?jǐn)?shù)在深層上升了。這說明參數(shù)規(guī)模擴(kuò)大可以讓模型的語言理解過程更加靈活，而指令微調(diào)則會(huì)讓其更加固定。

圖7 7B到13B大小的平凡特征依賴性分?jǐn)?shù)變化

圖8 指令微調(diào)后的平凡特征依賴性分?jǐn)?shù)變化

L2對(duì)平凡特征的依賴程度更高。表2展示了L1與L2人群的眼動(dòng)模式對(duì)平凡特征的依賴性分?jǐn)?shù)?？梢园l(fā)現(xiàn)，L2在最小值、最大值與平均值上均高于L1，獨(dú)立t檢驗(yàn)結(jié)果也支持L2分?jǐn)?shù)顯著高于L1。這說明非母語人群在閱讀英語文本時(shí)的眼動(dòng)模式比母語人群顯示出更多的固定、簡單模式。

表2 L1與L2的平凡特征依賴性分?jǐn)?shù)，SE為標(biāo)準(zhǔn)差

總結(jié)

本文評(píng)估了參數(shù)規(guī)模擴(kuò)大與指令微調(diào)對(duì)模型在自然語言理解過程中的注意力的影響。我們發(fā)現(xiàn)，參數(shù)規(guī)模擴(kuò)大可以有效改變模型的整體注意力分布，提高模型的人類相似度，并降低模型對(duì)平凡特征的依賴程度；而指令微調(diào)基本上起到相反的效果，但也會(huì)提高模型對(duì)指令內(nèi)容的敏感性。同時(shí)，我們的結(jié)果也展示出，目前的以英語為主的開源LLM的注意力模式更接近非英語母語者的眼動(dòng)模式，提示了當(dāng)前模型與人類在語言感知上的差異。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

PLM

PLM

+關(guān)注

關(guān)注
2

文章
140

瀏覽量
21471
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
561

瀏覽量
10797
LLM

LLM

+關(guān)注

關(guān)注
1

文章
325

瀏覽量
844

原文標(biāo)題：EMNLP2023 | 模型與人類的注意力視角下參數(shù)規(guī)模擴(kuò)大與指令微調(diào)對(duì)模型語言理解的作用

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

模型與人類的注意力視角下參數(shù)規(guī)模擴(kuò)大與指令微調(diào)對(duì)模型語言理解的作用

評(píng)論