一種新穎的大型語(yǔ)言模型知識(shí)更新微調(diào)范式

先遺忘后學(xué)習(xí)：基于參數(shù)計(jì)算的大模型知識(shí)更新

最近，大型語(yǔ)言模型（LLMs）展示了其令人驚嘆的文本理解和生成能力。然而，即使是更為強(qiáng)大的LLMs，仍有可能從訓(xùn)練語(yǔ)料庫(kù)中學(xué)到不正確的知識(shí)，以及隨時(shí)間而過(guò)時(shí)的知識(shí)。直接使用包含新知識(shí)的數(shù)據(jù)進(jìn)行二次微調(diào)可能在更新知識(shí)時(shí)效果不佳，因?yàn)樾屡f知識(shí)之間存在沖突。在本文中，我們提出了一種新的微調(diào)范式，被稱為F-Learning（先遺忘后學(xué)習(xí)），它基于參數(shù)計(jì)算，實(shí)現(xiàn)對(duì)舊知識(shí)的遺忘和對(duì)新知識(shí)的學(xué)習(xí)。在兩個(gè)公開可用的數(shù)據(jù)集上的實(shí)驗(yàn)證明，我們提出的F-Learning顯著改善了全量微調(diào)和LoRA微調(diào)的知識(shí)更新性能。此外，我們還發(fā)現(xiàn)，通過(guò)減去LoRA的參數(shù)來(lái)遺忘舊知識(shí)可以達(dá)到與減去全量微調(diào)參數(shù)相似的效果，有時(shí)甚至可以顯著超越它。

論文：
Forgetting before Learning: Utilizing Parametric Arithmetic for Knowledge Updating in Large Language Models

地址：
https://arxiv.org/pdf/2311.08011.pdf

研究背景

大型語(yǔ)言模型（LLMs）具有出色的自然語(yǔ)言理解和生成能力。盡管LLMs在學(xué)習(xí)方面非常強(qiáng)大，但仍有可能在語(yǔ)料庫(kù)中學(xué)到錯(cuò)誤的知識(shí)。此外，現(xiàn)實(shí)世界中的許多知識(shí)不斷更新，LLMs中的一些最初正確的知識(shí)隨時(shí)間變得過(guò)時(shí)和無(wú)效。例如，“美國(guó)總統(tǒng)是誰(shuí)？”在2020年的答案可能是“唐納德·特朗普”，而現(xiàn)在的答案是“喬·拜登”。因此，LLMs需要在使用過(guò)程中不斷更新其發(fā)現(xiàn)的過(guò)時(shí)和錯(cuò)誤的知識(shí)?，F(xiàn)有的模型編輯和知識(shí)更新方法通常會(huì)添加額外的參數(shù)、存儲(chǔ)模塊、知識(shí)庫(kù)等，而編輯過(guò)程不像直接使用新知識(shí)進(jìn)行微調(diào)那樣簡(jiǎn)單明了。

目前，學(xué)習(xí)新知識(shí)時(shí)最常用的方法仍然是直接微調(diào)模型。當(dāng)人類建立起自己的初始認(rèn)知時(shí)，如果他們接觸到與初始認(rèn)知不一致的新知識(shí)，通常會(huì)感到?jīng)_突，難以學(xué)習(xí)和接受新知識(shí)。如果原始認(rèn)知和知識(shí)被遺忘，那么待學(xué)習(xí)的新知識(shí)就不會(huì)與原始認(rèn)知和知識(shí)發(fā)生沖突，這使得學(xué)習(xí)和吸收新知識(shí)變得更為簡(jiǎn)單。例如，如果一個(gè)人從小被教育認(rèn)為“地球是扁平的”，那么當(dāng)他們成年后接受與之相矛盾的“地球是圓的”知識(shí)將會(huì)是一項(xiàng)挑戰(zhàn)。然而，如果他們能夠忘記“地球是扁平的”這個(gè)錯(cuò)誤的知識(shí)，或者在接觸到錯(cuò)誤信息之前學(xué)習(xí)和接受“地球是圓的”新知識(shí)，就會(huì)簡(jiǎn)單得多。

受以上經(jīng)驗(yàn)觀察的啟發(fā)，我們提出了一種稱為F-Learning（先遺忘后學(xué)習(xí)）的知識(shí)更新新范式。具體而言，我們首先使用舊知識(shí)微調(diào)初始模型，然后從初始模型參數(shù)中減去微調(diào)后的模型參數(shù)與初始模型參數(shù)的差值，這個(gè)過(guò)程被定義為“舊知識(shí)遺忘”。然后，我們使用新知識(shí)在遺忘舊知識(shí)后的模型上進(jìn)行微調(diào)。這個(gè)過(guò)程我們定義為“新知識(shí)學(xué)習(xí)”。經(jīng)過(guò)遺忘舊知識(shí)和學(xué)習(xí)新知識(shí)的兩個(gè)階段后，模型的知識(shí)得到更新。

研究方法

與引入外部知識(shí)庫(kù)或額外參數(shù)不同，我們的方法主要基于全量微調(diào)和參數(shù)高效微調(diào)。它包括兩個(gè)階段：遺忘舊知識(shí)和學(xué)習(xí)新知識(shí)。

遺忘舊知識(shí)

假設(shè)在數(shù)據(jù)集上進(jìn)行的有監(jiān)督微調(diào)（SFT）向LLMs注入了新知識(shí)或激活了與新知識(shí)相關(guān)的擬合能力，這反映在模型參數(shù)的變化上。在這個(gè)階段，對(duì)于給定的大型語(yǔ)言模型及其參數(shù)，我們定義增量參數(shù)為知識(shí)參數(shù)，計(jì)算如下：其中FT表示有監(jiān)督微調(diào)，和分別表示包含知識(shí)的數(shù)據(jù)集以及原始模型的參數(shù)。類似地，我們首先在一個(gè)包含舊知識(shí)的數(shù)據(jù)集上對(duì)進(jìn)行微調(diào)，然后用微調(diào)后的模型參數(shù)減去原始模型的參數(shù)得到表示舊知識(shí)的知識(shí)參數(shù)，如下所示：

其中表示包含我們需要遺忘的舊知識(shí)的數(shù)據(jù)集。受先前工作啟發(fā)，我們認(rèn)為從參數(shù)θ當(dāng)中減去參數(shù)能夠幫助模型遺忘這部分舊知識(shí)，所以我們將遺忘舊知識(shí)的過(guò)程定義如下：

其中是控制遺忘比例的超參數(shù)?，F(xiàn)在我們得到了一個(gè)參數(shù)為的新模型。值得注意的是這一遺忘舊知識(shí)的過(guò)程只有當(dāng)模型充分掌握舊知識(shí)的情況下才成立，否則模型無(wú)需進(jìn)行遺忘也不需要進(jìn)行知識(shí)更新。

學(xué)習(xí)新知識(shí)

對(duì)于經(jīng)歷過(guò)遺忘舊知識(shí)過(guò)程的模型，接著我們將通過(guò)監(jiān)督微調(diào)向注入新知識(shí)，以進(jìn)行知識(shí)更新。同樣地，我們定義學(xué)習(xí)新知識(shí)的過(guò)程如下：

其中表示有監(jiān)督微調(diào)，表示學(xué)習(xí)了新知識(shí)的模型的參數(shù)，表示包含需要更新的的新知識(shí)的數(shù)據(jù)集。

實(shí)驗(yàn)

在實(shí)驗(yàn)中我們采用了ZsRE和COUNTE RF ACT兩個(gè)廣泛使用的數(shù)據(jù)集，并選擇Reliability、Generality、Locality作為主要評(píng)測(cè)指標(biāo)，分別評(píng)估知識(shí)更新的準(zhǔn)確率、泛化性以及對(duì)無(wú)關(guān)知識(shí)的影響程度。我們將直接對(duì)原始模型進(jìn)行新知識(shí)有監(jiān)督微調(diào)得到的結(jié)果作為基線。實(shí)驗(yàn)結(jié)果如下所示：

我們使用LLAMA2-7B作為實(shí)驗(yàn)的基礎(chǔ)模型。我們主要評(píng)估將舊知識(shí)更新為新知識(shí)的能力，因此模型將首先在舊知識(shí)上進(jìn)行為期3個(gè)時(shí)期的微調(diào)。表1中F-Learning中設(shè)置的超參數(shù)λ分別取值為0.3、0.7、0.1和1.5。所有實(shí)驗(yàn)的學(xué)習(xí)率和時(shí)期都設(shè)置為5e-5和3。為了確保模型輸出的唯一性，在測(cè)試期間我們將模型的溫度設(shè)置為0。在硬件方面，我們使用了總共4個(gè)A100-80G GPU進(jìn)行實(shí)驗(yàn)。

實(shí)驗(yàn)表明在首次遺忘之后，無(wú)論是全量微調(diào)還是LoRA，在學(xué)習(xí)方面都有顯著的提升。具體而言，與直接進(jìn)行全量微調(diào)相比，F(xiàn)-Learning FT在ZsRE數(shù)據(jù)集上將Reliabilty和Generality分別提高了2.71和4.84點(diǎn)。與此同時(shí)，Locality指標(biāo)基本保持不變，僅下降了0.43點(diǎn)。與直接進(jìn)行全量微調(diào)相比，F(xiàn)-Learning LoRA在ZsRE數(shù)據(jù)集上將Reliabilty和Generality分別提高了2.71和4.84點(diǎn)。Locality指標(biāo)基本保持不變，僅下降了0.43點(diǎn)。與LoRA微調(diào)相比，F(xiàn)-LearningLoRA在ZsRE數(shù)據(jù)集上將Reliabilty、Generality和Locality指標(biāo)分別提高了3.81、4.01和1.67點(diǎn)。同樣，在COUNTERFACT數(shù)據(jù)集上，與直接進(jìn)行全體積微調(diào)相比，F(xiàn)-LearningLoRA將Reliabilty、Generality和Locality指標(biāo)分別提高了3.54、1.48和0.07點(diǎn)。與LoRA微調(diào)相比，F(xiàn)-LearningLoRA在ZsRE數(shù)據(jù)集上將Reliabilty、Generality和Locality指標(biāo)分別提高了0.61、0.39和0.34點(diǎn)。總體而言，全量微調(diào)比LoRA更具學(xué)習(xí)新知識(shí)的能力，而我們的F-Learning在一定程度上相對(duì)于全量微調(diào)和LoRA取得了提升。

LoRA遺忘然后全量學(xué)習(xí)

在上述實(shí)驗(yàn)設(shè)置中，我們采用的方法是同時(shí)基于全量微調(diào)（或LoRA）執(zhí)行舊知識(shí)遺忘和新知識(shí)學(xué)習(xí)。然而，我們發(fā)現(xiàn)在某些情況下，通過(guò)減去全量微調(diào)的知識(shí)參數(shù)（即通過(guò)全量微調(diào)遺忘舊知識(shí)）會(huì)完全破壞我們基礎(chǔ)模型的核心功能，導(dǎo)致評(píng)估指標(biāo)顯著下降。鑒于LoRA是一種參數(shù)高效的微調(diào)方法，與全量微調(diào)相比對(duì)參數(shù)的影響較小，我們嘗試了一種新的方法，即通過(guò)LoRA遺忘舊知識(shí)，然后通過(guò)全量微調(diào)學(xué)習(xí)新知識(shí)，以尋求一種平衡。與上文類似，我們對(duì)這一過(guò)程定義如下：

為了驗(yàn)證，我們保持與上述相同的實(shí)驗(yàn)設(shè)置并進(jìn)行實(shí)驗(yàn)。結(jié)果如表2所示。注意，在表2中，F(xiàn)-Learning中設(shè)置的超參數(shù)λ分別取值為0.3、3、0.1和3。結(jié)果支持了通過(guò)LoRA遺忘舊知識(shí)，然后通過(guò)全量微調(diào)學(xué)習(xí)的方法完全超越了直接的全量微調(diào)，幾乎實(shí)現(xiàn)了對(duì)遺忘并通過(guò)全量微調(diào)學(xué)習(xí)的方法的近似甚至超越。具體而言，與方法F-Learning FT相比，F(xiàn)-Learning LoRA?FT在COUNTERFACT數(shù)據(jù)集上將Reliabilty和Generality分別提高了9.20和6.11點(diǎn)。盡管F-Learning LoRA?FT在ZsRE數(shù)據(jù)集上的表現(xiàn)約低1-2點(diǎn)，但仍然在全量微調(diào)方面具有很大優(yōu)勢(shì)，并有提升的空間。至于Locality指標(biāo)，F(xiàn)-Learning LoRA?FT在zsRE和COUNTERFACT數(shù)據(jù)集上都取得了約1點(diǎn)的提升。我們經(jīng)驗(yàn)性地認(rèn)為這是因?yàn)榛贚oRA的遺忘對(duì)參數(shù)的影響較小，從而對(duì)無(wú)關(guān)知識(shí)造成的損害較小。實(shí)驗(yàn)證明通過(guò)減去LoRA的參數(shù)進(jìn)行遺忘可以達(dá)到近似于減去全量微調(diào)參數(shù)的效果，這具有很大的價(jià)值，因?yàn)樵诖蠖鄶?shù)情況下，LoRA的時(shí)間成本和計(jì)算成本都遠(yuǎn)遠(yuǎn)低于全量微調(diào)。