粗长巨龙挺进人妻后臀视频,咸人A片色情在线观看

LLM可以標(biāo)記人類偏好數(shù)據(jù)，用于強(qiáng)化學(xué)習(xí)嗎？盡管之前有一些類似的研究，但從沒有人系統(tǒng)地對比RLHF和RLAIF的性能。今天，我們?yōu)榇蠹規(guī)硪豁桮oogle最新的研究，來看看LLM是否懂得人類的偏好。

基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)通過收集人類反饋，以強(qiáng)化學(xué)習(xí)方法訓(xùn)練LLM，可以更好地理解人類偏好。然而，這個方法有一個很大的問題：收集高質(zhì)量的人類反饋非常困難和耗時。

那有沒有更好的方法呢？

RLAIF方法

RLAIF即Reinforcement learning from AI feedback。顧名思義，RLAIF是指使用LLM來代替人類標(biāo)記偏好，基于這些標(biāo)記數(shù)據(jù)訓(xùn)練獎勵模型，然后進(jìn)行RL微調(diào)。

下圖是一個展示了RLAIF(上)和RLHF(下)的基本流程。

如圖所示，在RLAIF中，首先使用LLM來評估給定的文本和2個候選回復(fù)，然后，這些由LLM生成的偏好數(shù)據(jù)被用來訓(xùn)練一個獎勵模型，這個獎勵模型用于強(qiáng)化學(xué)習(xí)，以便進(jìn)一步優(yōu)化LLM。

一個LLM用于評估回復(fù)的prompt示例如下圖，遵循以下流程：

Preamble-描述任務(wù)介紹和說明

Few-shot exemplars(可選)

Sample to annotate

結(jié)束字符串

在這篇研究中，作者還探索了：

避免位置偏差: 候選回復(fù)喂給LLM的順序可能會偏向它喜歡的候選順序，尤其是在 LLM 參數(shù)較小的情況下。為了減輕位置偏差的影響，作者進(jìn)行了雙重推理和平均處理。

prompt改進(jìn): 還嘗試了使用思維鏈（CoT）推理和self-consistency等方法促進(jìn)LLM的評估。

實驗結(jié)果

作者使用PaLM 2 Extra-Small(XS)在OpenAI的過濾過的TL;DR數(shù)據(jù)集上訓(xùn)練了一個SFT模型作為baseline。

對于RLHF方法，獎勵模型在OpenAI的TL;DR人類偏好數(shù)據(jù)集上進(jìn)行訓(xùn)練。

對于RLAIF方法，使用PaLM 2 L生成AI標(biāo)記的偏好

對于強(qiáng)化學(xué)習(xí)，使用A2C訓(xùn)練策略。策略和價值模型都是從SFT模型初始化的。

實驗主要有以下發(fā)現(xiàn)：

在性能方面：RLAIF與RLHF有相似的表現(xiàn)。

在人類評估上，與SFT策略相比，RLAIF被偏好71%的時間，而RLHF則被偏好73%的時間。盡管RLHF略微優(yōu)于RLAIF，但這個差異在統(tǒng)計上并不顯著。

直接對比勝率：RLAIF與RLHF在被偏好的程度上是平等的，勝率都是50%。

與人工寫的摘要比較：RLAIF和RLHF生成的摘要分別在79%和80%的時間內(nèi)被更偏好，與參考摘要的差異也不具統(tǒng)計意義。

影響因素：RLAIF和RLHF策略傾向于生成比SFT策略更長的摘要，這可能是質(zhì)量提升的一個因素。

長度調(diào)整后表現(xiàn)：即使控制摘要的長度，RLAIF和RLHF都依然在同樣的幅度內(nèi)優(yōu)于SFT策略。

下圖是SFT，RLHF和RLAIF策略生成的示例摘要。RLHF和RLAIF 比SFT產(chǎn)生更高質(zhì)量的摘要。

對于prompt方式，使用詳細(xì)的OpenAI preamble和CoT給出了最高的對齊性能。少樣本提示并沒有提高準(zhǔn)確性，甚至可能使它變得更糟。

Self-Consistency with CoT對性能的影響如下，用T=1采樣會導(dǎo)致與人類偏好的一致性較低。

作者還對用于評估的LLM的參數(shù)大小進(jìn)行了探索，發(fā)現(xiàn)與人類偏好的一致性隨著LLM大小的增加而增加。

總結(jié)

這項工作似乎暗示RLAIF是一個不依賴于人工標(biāo)注的、與RLHF可行的替代方案。但是，為了更好地了解這些發(fā)現(xiàn)是否能推廣到其他NLP任務(wù)，還需要在更廣泛的任務(wù)范圍內(nèi)進(jìn)行實驗。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3649

瀏覽量
51713
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
269

瀏覽量
11903
LLM

LLM

+關(guān)注

關(guān)注
1

文章
340

瀏覽量
1257

原文標(biāo)題：RLAIF：一個不依賴人工的RLHF替代方案

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

RLAIF：一個不依賴人工的RLHF替代方案

評論