若干年前,AlphaGo Zero用兩個(gè)AI代理切磋圍棋技藝,打敗了人類(lèi)。今早,符堯的一篇論文刷新了我的認(rèn)知:讓大語(yǔ)言模型相互對(duì)弈,再加一個(gè)評(píng)論家提供建設(shè)性意見(jiàn),提高菜市場(chǎng)砍價(jià)技巧!這種模式被作者定義為In-Context Learning from AI Feedback (ICL-AIF),即來(lái)自AI反饋的上下文學(xué)習(xí),使用評(píng)論家的反饋以及前幾輪對(duì)話(huà)歷史作為上下文。
沒(méi)錯(cuò),就是讓GPT和Claude扮演賣(mài)家和買(mǎi)家,開(kāi)展一場(chǎng)價(jià)格廝殺的對(duì)決!
我們先來(lái)簡(jiǎn)單介紹游戲玩法:
任務(wù)是賣(mài)氣球,交易價(jià)格設(shè)定為10美元至20美元,賣(mài)家要以更高的價(jià)格銷(xiāo)售,而買(mǎi)家要以更低的價(jià)格購(gòu)買(mǎi)!對(duì)于每輪交易,論文作者硬編碼賣(mài)方以“這是一個(gè)好氣球,價(jià)格為20美元”開(kāi)始協(xié)商,買(mǎi)方則以“你是否考慮以10美元的價(jià)格出售它?”開(kāi)始協(xié)商,協(xié)商結(jié)束后會(huì)有批評(píng)家提供反饋,改善買(mǎi)家或賣(mài)家的行為。衡量玩家表現(xiàn)的是最終成交價(jià)格。
圖:談判游戲的設(shè)置
哪些模型參與游戲呢?
篩選條件是可通過(guò)API調(diào)用的聊天機(jī)器人,包括cohere-command、AI21的jurassic-2、OpenAI的gpt和Anthropic的claude。根據(jù)chain-of-thought hub和HeLM 之類(lèi)的基準(zhǔn)測(cè)試,這些模型的大致排名是:gpt-4和claude-v1.3大致相似,優(yōu)于gpt-3.5-turbo和claude-instant-v1.0,也優(yōu)于cohere-command和j2-jumbo-instruct。作者表示將在未來(lái)考慮更多的模型,例如Google的PaLM-2。
但是,由于cohere-command不能理解談判規(guī)則、AI21的j2-jumbo-instruct不能整合AI反饋,所以這兩個(gè)模型被剔除。只考慮剩下的三個(gè)模型:gpt-3.5-turbo,claude-instant-v1.0和claude-v1.3。從表1看出,這三個(gè)模型在人類(lèi)和AI反饋方面都表現(xiàn)出相當(dāng)?shù)母倪M(jìn),這證明了這個(gè)游戲設(shè)置對(duì)于更強(qiáng)的LLM引擎是有效的。
表:使用AI反饋與從預(yù)定義池中隨機(jī)選擇的人類(lèi)反饋相比,賣(mài)家的平均交易價(jià)格
有哪些有意思的實(shí)驗(yàn)結(jié)果?
由于這篇工作只是一個(gè)初步探索,我們先窺探一些模型表現(xiàn)方面有意思的成果吧:
1. 角色差異
像claude-instant-v1.0和gpt-3.5-turbo這樣較弱的代理,作為賣(mài)方通過(guò)AI反饋進(jìn)行改進(jìn)比作為買(mǎi)方更容易,這表明買(mǎi)方角色比賣(mài)方角色更難扮演。但更強(qiáng)的代理(claude-v1.3 / gpt-4)作為買(mǎi)家,仍然可以從AI反饋中獲得改進(jìn)。
圖:500場(chǎng)游戲的交易價(jià)格頻率,反饋前v.s.反饋后。X軸是價(jià)格,Y軸是價(jià)格的頻率
2. 迭代改進(jìn)
將游戲展開(kāi)到多輪,看看模型是否可以從先前的對(duì)話(huà)歷史和迭代AI反饋中持續(xù)改進(jìn),會(huì)發(fā)現(xiàn)gpt-3.5-turbo可以在多輪中改進(jìn),但claude-instant-v1.0只能在最多一輪中改進(jìn)。
圖:多回合設(shè)置中,不同的模型在扮演賣(mài)/買(mǎi)家時(shí)有不同的行為
3. 成交價(jià)格和成交率的平衡
當(dāng)扮演買(mǎi)家時(shí),有些模型無(wú)法進(jìn)行改進(jìn)(claude-instant-v1.0),或在三輪之后趨于飽和(claude-v1.3),而gpt-4和gpt-3.5-turbo可以不斷改進(jìn),gpt-4取得了比gpt-3.5-turbo更低的成交價(jià)格和更高的成交率。
圖:GPT和Claude模型在多輪游戲中的交易價(jià)格及成交率
4. 語(yǔ)言復(fù)雜性
通過(guò)繪制每輪之后的平均響應(yīng)長(zhǎng)度(以字符數(shù)度量),可以看到,claude-v1.3和gpt-4在迭代AI反饋后回答變長(zhǎng)。從具體的賣(mài)家回答示例也可以看到,經(jīng)過(guò)多輪談判,措辭也更加得體。但比起claude-v1.3,gpt-4能使用更少的詞語(yǔ)實(shí)現(xiàn)更好的價(jià)格和成功率。
圖:平均響應(yīng)長(zhǎng)度隨著模型的多輪學(xué)習(xí)而增加
結(jié)論
大語(yǔ)言模型的確可以根據(jù)AI反饋迭代改進(jìn)談判策略,且更強(qiáng)的模型效果更明顯!這個(gè)研究是否意味著,大語(yǔ)言模型可以在最少的人類(lèi)干預(yù)下實(shí)現(xiàn)自我改進(jìn)呢?只需給它一個(gè)評(píng)論家分身即可!
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
30892瀏覽量
221158 -
AI
+關(guān)注
關(guān)注
91文章
39058瀏覽量
299615 -
模型
+關(guān)注
關(guān)注
1文章
3687瀏覽量
51944
原文標(biāo)題:符堯最新研究:大語(yǔ)言模型玩砍價(jià)游戲?技巧水漲船高!
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
模型表現(xiàn)方面有意思的成果
評(píng)論