引入
在大家搞RLHF中經(jīng)常遇到的一個(gè)核心的問題是,RM的水平不夠好沒法訓(xùn)練得到想要的效果,其背后兩大類基本的原因是:1.數(shù)據(jù)質(zhì)量低。2.模型泛化能力差。
復(fù)旦MOSS這篇技術(shù)報(bào)告,從這兩個(gè)問題入手,提出了一系列方法優(yōu)化和提升。
核心問題
展開來講的話,關(guān)于1.數(shù)據(jù)質(zhì)量低 2.模型泛化能力差這兩個(gè)問題具體指的是:
一、數(shù)據(jù)質(zhì)量低:數(shù)據(jù)集中的錯(cuò)誤和模糊的偏好對(duì)(pairs),可能導(dǎo)致獎(jiǎng)勵(lì)模型(RM)無法準(zhǔn)確捕捉人類的偏好。你通過數(shù)據(jù)透?jìng)鹘o你的模型,一會(huì)兒向左,一會(huì)兒向右,模型也要學(xué)懵。
二、泛化能力差:獎(jiǎng)勵(lì)模型在特定分布上訓(xùn)練后,很難泛化到該分布之外的例子,且不適合迭代式的RLHF訓(xùn)練(提升RLHF的重要路徑之一)。你的模型訓(xùn)練得到了一個(gè)二極管,對(duì)于自己相信的東西表現(xiàn)的非常極端,對(duì)于沒見過的東西就傻眼了。
針對(duì)這兩類問題,作者提出了兩個(gè)視角的方法,分別從數(shù)據(jù)角度和算法角度出發(fā)。
一、數(shù)據(jù)角度:使用多個(gè)獎(jiǎng)勵(lì)模型的輸出,增加數(shù)據(jù)度量的信息源,用這種方法來量化數(shù)據(jù)中偏好的強(qiáng)度信息,并通過這種方法來識(shí)別和糾正錯(cuò)誤或模糊的偏好對(duì)。對(duì)于不同質(zhì)量水平,模糊度水平的數(shù)據(jù),采取了不一樣的措施,有翻轉(zhuǎn),軟標(biāo)簽,適應(yīng)性margin等具體方法,后面具體展開講解。
二、算法角度:借助對(duì)比學(xué)習(xí)和元學(xué)習(xí)的方法。增加對(duì)比學(xué)習(xí)的loss,對(duì)比學(xué)習(xí)通過增強(qiáng)模型區(qū)分能力,來增強(qiáng)RM的對(duì)好壞的區(qū)分水平。元學(xué)習(xí)則使獎(jiǎng)勵(lì)模型能夠維持區(qū)分分布外樣本的細(xì)微差異,這種方法可以用于迭代式的RLHF優(yōu)化。
數(shù)據(jù)視角
在論文中,"Measuring the Strength of Preferences"(測(cè)量偏好強(qiáng)度)部分提出了一種基于多獎(jiǎng)勵(lì)模型投票的方法來量化數(shù)據(jù)中偏好的強(qiáng)度。這種方法的具體步驟如下:
1.訓(xùn)練多個(gè)獎(jiǎng)勵(lì)模型:使用相同的偏好數(shù)據(jù)集,隨機(jī)化訓(xùn)練順序,訓(xùn)練多個(gè)獎(jiǎng)勵(lì)模型。這些模型可以是相同的結(jié)構(gòu),但初始化權(quán)重不同,以增加多樣性。
2.計(jì)算偏好強(qiáng)度:對(duì)于每一個(gè)pair,例如,兩個(gè)由SFT模型生成的輸出和,使用這些獎(jiǎng)勵(lì)模型計(jì)算每個(gè)模型對(duì)這兩個(gè)輸出的獎(jiǎng)勵(lì)分?jǐn)?shù) 和 。然后,計(jì)算每個(gè)比較對(duì)的偏好強(qiáng)度,其中是被選擇的輸出,是被拒絕的輸出。
計(jì)算平均值和標(biāo)準(zhǔn)差:使用所有獎(jiǎng)勵(lì)模型的分?jǐn)?shù)來計(jì)算偏好強(qiáng)度的平均值和標(biāo)準(zhǔn)差。這些統(tǒng)計(jì)量可以幫助評(píng)估偏好的一致性和強(qiáng)度。
分析偏好強(qiáng)度分布:通過觀察偏好強(qiáng)度的平均值和標(biāo)準(zhǔn)差的分布,可以識(shí)別出數(shù)據(jù)集中可能存在的錯(cuò)誤或模糊偏好。例如,如果偏好強(qiáng)度的平均值接近0,可能表明偏好標(biāo)簽不正確;如果標(biāo)準(zhǔn)差很大,可能表明偏好差異不明顯,模型在這些數(shù)據(jù)上可能不夠魯棒。
作者給了一個(gè)分布分析的例子,分別是前面提到的這個(gè)度量的均值和方差通過10個(gè)模型得到的分布。

可以看出數(shù)據(jù)的區(qū)分性比較強(qiáng),并且隨著的上升,和GPT4標(biāo)注結(jié)果的一致性也在上升。

通過如上的方法就可以把數(shù)據(jù)大概分開,我們劃分為3類進(jìn)行分析。
1.低強(qiáng)度的偏好數(shù)據(jù)的負(fù)面影響:研究發(fā)現(xiàn),數(shù)據(jù)集中偏好強(qiáng)度最低的20%的數(shù)據(jù)對(duì)模型在驗(yàn)證集上的性能有負(fù)面影響。這些數(shù)據(jù)的偏好強(qiáng)度平均值小于0,表明這些數(shù)據(jù)可能包含錯(cuò)誤的偏好標(biāo)簽。
2.中等強(qiáng)度偏好數(shù)據(jù)的中立影響:偏好強(qiáng)度在20%到40%之間的數(shù)據(jù),在訓(xùn)練后,模型在驗(yàn)證集上的預(yù)測(cè)準(zhǔn)確率大約為0.5。這些數(shù)據(jù)的偏好強(qiáng)度平均值接近0,表明這些數(shù)據(jù)的偏好差異不大,模型在這些數(shù)據(jù)上的學(xué)習(xí)效果一般。
3.高強(qiáng)度的偏好數(shù)據(jù)的積極影響:剩余的數(shù)據(jù)(偏好強(qiáng)度最高的60%)顯著提高了模型的性能。然而,僅使用偏好強(qiáng)度最高的10%的數(shù)據(jù)訓(xùn)練模型時(shí),并沒有達(dá)到最佳性能。這可能是因?yàn)檫@些數(shù)據(jù)過于強(qiáng)烈,導(dǎo)致模型可能過度擬合這些數(shù)據(jù)。
歸納出偏好強(qiáng)度信息后,我們可以根據(jù)偏好強(qiáng)度的測(cè)量結(jié)果,可以對(duì)數(shù)據(jù)集進(jìn)行分類,并對(duì)不同類別的數(shù)據(jù)采取不同的處理策略。
對(duì)于低強(qiáng)度的偏好數(shù)據(jù),隱含標(biāo)簽錯(cuò)誤的可能性,通過翻轉(zhuǎn)偏好對(duì)的標(biāo)簽可以有效地提高模型性能。對(duì)于中強(qiáng)度的,比較模糊的偏好數(shù)據(jù),應(yīng)用軟標(biāo)簽和適應(yīng)性邊距可以避免模型過度擬合。對(duì)于高強(qiáng)度的偏好數(shù)據(jù),使用軟標(biāo)簽和適應(yīng)性邊距的組合特別有效。
具體的三個(gè)手段:反轉(zhuǎn),即為標(biāo)簽倒置,軟標(biāo)簽是不使用0和1的hard lable,用度量偏好差異的作為軟標(biāo)簽,就是來回歸 ,并且增加了這樣的自適應(yīng)參數(shù)。

adaptive margin
一種讓同類聚集,異類區(qū)分度增大的經(jīng)典方法,來自于人臉識(shí)別的經(jīng)典方法。

作者給了這幾種方法的詳細(xì)實(shí)驗(yàn)過程:包含了reward,loss,ppl,輸出len等角度的度量。

整體看起來,軟標(biāo)簽適用在中上強(qiáng)度的偏好數(shù)據(jù),margin方法在所有強(qiáng)度數(shù)據(jù)都適用。

算法視角
在論文的 "Preference Generalization and Iterated RLHF"(偏好泛化和迭代RLHF)部分,作者們提出了兩種主要的方法來提高獎(jiǎng)勵(lì)模型(Reward Model, RM)的泛化能力,使其能夠在分布變化的情況下仍然能夠有效地區(qū)分不同的響應(yīng)。具體做法如下:
一、對(duì)比學(xué)習(xí)(Contrastive Learning):
選擇正負(fù)樣本:在模型上接入對(duì)比學(xué)習(xí)損失。
形式很簡(jiǎn)單,其核心就是如何構(gòu)造對(duì)比學(xué)習(xí)的學(xué)習(xí)方法。有兩種方法:1.直接學(xué)習(xí)偏好對(duì)(Preference Pairs)的表征,也就是最普通的對(duì)比學(xué)習(xí)。2.學(xué)習(xí)前文提到的偏好差異(Preference Difference),,這種差異本質(zhì)上也是一種對(duì)比的度量。
作者選取兩種對(duì)比學(xué)習(xí)swAV和simcse,交叉了兩種學(xué)習(xí)方式,得到了如下的實(shí)驗(yàn)結(jié)果。

二、MetaRM(Meta Reward Model)
提出了一種名為MetaRM的方法,通過元學(xué)習(xí)來對(duì)齊原始偏好對(duì)與分布變化。MetaRM的關(guān)鍵思想是在訓(xùn)練階段最小化原始偏好對(duì)的損失,同時(shí)最大化對(duì)從新分布中采樣的響應(yīng)的區(qū)分能力。

訓(xùn)練過程:MetaRM的訓(xùn)練過程包括四個(gè)步驟:計(jì)算從新分布中采樣的響應(yīng)的差異損失,計(jì)算損失相對(duì)于RM參數(shù)的梯度并更新參數(shù),計(jì)算原始偏好對(duì)的損失,以及計(jì)算損失相對(duì)于更新后的參數(shù)的梯度并優(yōu)化原始參數(shù)。
具體,MetaRM 的算法包括以下步驟:
1.從偏好對(duì)數(shù)據(jù)集 中采樣一個(gè)batch 。
2.從元數(shù)據(jù)集 中采樣一個(gè)batch 。
3.在 上計(jì)算差異損失 。
4.使用元學(xué)習(xí)更新獎(jiǎng)勵(lì)模型的參數(shù) 。
5.在 上計(jì)算原始損失 。
6.使用原始損失的梯度更新獎(jiǎng)勵(lì)模型的參數(shù) θt。
其優(yōu)化目標(biāo)是通過最大化差異損失函數(shù) 和最小化原始損失函數(shù) 來訓(xùn)練獎(jiǎng)勵(lì)模型。這樣,獎(jiǎng)勵(lì)模型既能學(xué)習(xí)到原始偏好對(duì),又能適應(yīng)策略模型輸出分布的變化。

通過這些方法,獎(jiǎng)勵(lì)模型能夠更好地捕捉數(shù)據(jù)中細(xì)微的偏好差異,從而在面對(duì)新分布的數(shù)據(jù)時(shí)保持其區(qū)分能力。這使得獎(jiǎng)勵(lì)模型能夠在迭代的RLHF過程中更穩(wěn)定地優(yōu)化語言模型,即使在模型輸出分布發(fā)生變化時(shí)也能保持其指導(dǎo)優(yōu)化的能力。
主要實(shí)驗(yàn)結(jié)果如圖所示:MetaRM 在分布內(nèi)和分布外任務(wù)評(píng)估中都顯示出了優(yōu)越的性能。在分布內(nèi)任務(wù)中,MetaRM 在多個(gè)回合的 PPO 訓(xùn)練后,其性能顯著優(yōu)于基線模型。

另外在OOD上的表現(xiàn)做了單獨(dú)的分析,在分布外任務(wù)中,MetaRM 繼續(xù)優(yōu)于基線模型,表明其方法能夠有效地在新領(lǐng)域?qū)崿F(xiàn)對(duì)齊,而無需對(duì)一組query進(jìn)行成本高昂的重新標(biāo)注。

?

總結(jié)
總結(jié)來說,作者們?cè)趫?bào)告中提出了一系列方法來解決開頭提到的核心問題,如何增加RM的泛化能力,從數(shù)據(jù)和算法角度,分別提出了兩個(gè)問題核心問題和對(duì)應(yīng)的解決方法,旨在提高獎(jiǎng)勵(lì)模型在處理錯(cuò)誤偏好數(shù)據(jù)和泛化到新分布數(shù)據(jù)時(shí)的性能。
審核編輯:黃飛
?
電子發(fā)燒友App


















評(píng)論