chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Allen AI推出集成主流大語(yǔ)言模型的LLM-BLENDER框架

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-06-11 15:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

wkk

隨著大語(yǔ)言模型(LLM)的迅速發(fā)展,眾多開(kāi)源的LLM性能參差不齊。今天分享的是由Allen AI實(shí)驗(yàn)室聯(lián)合南加大和浙江大學(xué)的最新研究論文,發(fā)表在ACL上。本文提出了一個(gè)集成框架(LLM-BLENDER),旨在通過(guò)利用多個(gè)開(kāi)源大型語(yǔ)言模型的不同優(yōu)勢(shì)使框架始終保持卓越的性能。

下面請(qǐng)大家跟隨我的視角一起來(lái)分析LLM-BLENDER框架是如何工作的吧!

df88c06e-0749-11ee-962d-dac502259ad0.png

論文:LLM-BLENDER: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion
鏈接:https://arxiv.org/pdf/2306.02561

簡(jiǎn)介

考慮到眾多LLM有不同的優(yōu)勢(shì)和劣勢(shì),本文開(kāi)發(fā)了一種利用其互補(bǔ)潛力的集成方法,從而提高魯棒性、泛化和準(zhǔn)確性。通過(guò)結(jié)合單個(gè)LLM的貢獻(xiàn),可以減輕單個(gè)LLM中的偏見(jiàn)、錯(cuò)誤和不確定性信息,從而產(chǎn)生更符合人類(lèi)偏好的輸出。

LLM-BLENDER

LLM-BLENDER包括兩個(gè)模塊:PAIRRANKER和GENFUSER。首先,PAIRRANKER比較N個(gè)LLM的輸出,然后通過(guò)GENFUSER將它們?nèi)诤希瑥呐琶癒的輸出中生成最終輸出?,F(xiàn)有的方法如instructGPT中的reward model能夠?qū)斎離的輸出Y進(jìn)行排名,但是當(dāng)在多個(gè)LLM進(jìn)行組合時(shí)其效果并沒(méi)有那么明顯。原因在于,它們都是由復(fù)雜的模型產(chǎn)生的,其中一個(gè)可能只比另一個(gè)好一點(diǎn)。即使對(duì)人類(lèi)來(lái)說(shuō),在沒(méi)有直接比較的情況下衡量候選質(zhì)量也可能是一項(xiàng)挑戰(zhàn)。

因此,本文提出了一種專(zhuān)門(mén)用于成對(duì)比較的方法PAIRRANKER,以有效地識(shí)別候選輸出之間的細(xì)微差異并提高性能。具體地,首先為每個(gè)輸入收集N個(gè)模型的輸出,然后創(chuàng)建其輸出的N(N?1)/2對(duì)。以fφ(x,yi,yj)的形式將輸入 x 和兩個(gè)候選輸出yi和yj聯(lián)合編碼為交叉注意力編碼器的輸入,以學(xué)習(xí)并確定哪個(gè)候選更好。

在推理階段,計(jì)算一個(gè)矩陣,該矩陣包含表示成對(duì)比較結(jié)果的logits。給定該矩陣,可以推斷給定輸入x的N個(gè)輸出的排序。隨后,可以使用來(lái)自PAIRRANKER的每個(gè)輸入的排名最高的候選者作為最終結(jié)果。

盡管如此,這種方法可能會(huì)限制產(chǎn)生比現(xiàn)有候選更好產(chǎn)出的潛力。為了研究這種可能性,從而引入了GENFUSER模塊來(lái)融合N個(gè)排名的候選輸出中的前K個(gè),并為最終用戶(hù)生成改進(jìn)的輸出。

任務(wù)定義

給定輸入x和N個(gè)不同的語(yǔ)言模型{M1,., MN },可以通過(guò)使用每個(gè)模型處理x來(lái)生成N個(gè)候選輸出Y={y1,.,yN}。

研究目標(biāo)是開(kāi)發(fā)一種集成學(xué)習(xí)方法,該方法為輸入x產(chǎn)生輸出y,然后計(jì)算x與y的最大化相似度Q。與使用固定模型或隨機(jī)選擇x的模型相比,這種方法將產(chǎn)生更好的總體性能。

MixInstruct:一個(gè)新的基準(zhǔn)

本文引入了一個(gè)新的數(shù)據(jù)集MixInstruct,用于在指令跟隨任務(wù)中對(duì)LLM的集成模型進(jìn)行基準(zhǔn)測(cè)試。主要從四個(gè)來(lái)源收集了一組大規(guī)模的指令示例,如下表所示。對(duì)數(shù)據(jù)集中的100k個(gè)樣本進(jìn)行訓(xùn)練,5k個(gè)用于驗(yàn)證,5k個(gè)用于測(cè)試。然后,在這110k個(gè)示例上運(yùn)行N=11個(gè)流行的開(kāi)源LLM,包括 Vicuna、OpenAssistant、Alpaca、MPT等如下圖所示。

dfd72ae2-0749-11ee-962d-dac502259ad0.png

dff241b0-0749-11ee-962d-dac502259ad0.png

為了獲得候選輸出的性能排名,為ChatGPT設(shè)計(jì)了comparative prompts來(lái)評(píng)估所有候選對(duì)。具體來(lái)說(shuō),對(duì)于每個(gè)示例,準(zhǔn)備了55對(duì)候選者(11×10/2)。對(duì)于每一對(duì),要求ChatGPT基于輸入x和真值輸出y來(lái)判斷哪一個(gè)更好(或聲明平局)。

LLM-BLENDER: 一個(gè)新的框架

提出的一個(gè)用于集成LLM的框架LLM-BLENDER,如下圖所示。該框架由兩個(gè)主要組件組成:成對(duì)排序模塊PAIRRANKER和融合模塊GENFUSER。PAIRRANKER模塊學(xué)習(xí)比較每個(gè)輸入的所有候選對(duì),然后對(duì)候選輸出進(jìn)行排名。選擇前K=3個(gè)排名的候選輸出,將它們與輸入x連接起來(lái),并為GENFUSER模塊構(gòu)建輸入序列。GENFUSER模塊是一個(gè)seq2seq LM,由它生成為用戶(hù)服務(wù)的最終輸出。

e01e1f92-0749-11ee-962d-dac502259ad0.png

PAIRRANKER 架構(gòu)

Encoding:使用Transformer層對(duì)一個(gè)輸入和一對(duì)候選對(duì)象進(jìn)行編碼,通過(guò)注意力機(jī)制在輸入的上下文中捕獲候選輸出之間的差異。按順序連接這三個(gè)片段,并使用特殊標(biāo)記作為分隔符形成單個(gè)輸入序列:< source >、< candidate1 >和< candidate2 >。生成的transformer輸入序列的形式為“< s >< source > x < /s > < candidate1 > yi< /s > < candidate2 > yj < /s >”,其中x是源輸入的文本,yi和yj是兩個(gè)候選輸出的文本。特殊標(biāo)記< source >、< candidate1 >和< candidate2 >的嵌入分別用作x、yi和yj的表示。

Traning:為了確定兩個(gè)候選輸出的分?jǐn)?shù),將X的嵌入分別與yi和yj連接起來(lái),并使它們傳遞給多層感知器,最終層的維度等于要優(yōu)化的Q函數(shù)的數(shù)量。該維度內(nèi)的每個(gè)值表示特定Q函數(shù)的score。通過(guò)對(duì)這些Q個(gè)分?jǐn)?shù)取平均值來(lái)導(dǎo)出候選輸出的最終分?jǐn)?shù)。并在訓(xùn)練階段應(yīng)用了有效的子采樣策略來(lái)確保學(xué)習(xí)效率。訓(xùn)練期間,從候選輸出中隨機(jī)選擇一些組合,而不是所有N(N?1)/2對(duì)。實(shí)踐發(fā)現(xiàn),每個(gè)輸入使用 5 對(duì)足以獲得不錯(cuò)的結(jié)果。

考慮到語(yǔ)言模型的位置嵌入,一對(duì)(x,yi,yj)中候選輸出的順序很重要,因?yàn)?x,yi,yj)和(x,yj,yi)的比較結(jié)果可能不一致。因此,在訓(xùn)練過(guò)程中將每個(gè)訓(xùn)練對(duì)中候選輸出的順序打亂,以便模型學(xué)習(xí)與其自身一致

Inference:在推理階段,計(jì)算每一對(duì)候選輸出的分?jǐn)?shù)。在N(N?1)次迭代后,得到矩陣M如下圖所示,為了根據(jù) M 確定最佳候選者,通過(guò)引入了聚合函數(shù)來(lái)確定候選輸出的最終排名。

e044b03a-0749-11ee-962d-dac502259ad0.png

GENFUSER: 生成融合

PAIRRANKER的有效性受到從候選輸出中選擇的質(zhì)量的限制。假設(shè),通過(guò)合并多個(gè)排名靠前的候選輸出,能夠克服這種限制。由于這些得分較高的候選輸出往往表現(xiàn)出互補(bǔ)的優(yōu)勢(shì)和劣勢(shì),因此在減輕其缺點(diǎn)的同時(shí)結(jié)合它們的優(yōu)勢(shì)來(lái)生成更好的響應(yīng)是合理的。研究目標(biāo)是設(shè)計(jì)一個(gè)生成模型,該模型采用輸入x和K個(gè)排名靠前的候選輸出,并產(chǎn)生改進(jìn)的輸出作為最終響應(yīng)。為了實(shí)現(xiàn)這一點(diǎn),提出了GENFUSER,這是一種seq2seq方法,用于融合一組以輸入指令為條件的候選輸出,以生成增強(qiáng)的輸出。具體地,使用分隔符標(biāo)記順序連接輸入和K個(gè)候選,并微調(diào)類(lèi)似T5的模型以學(xué)習(xí)生成y。

評(píng)估

使用MixInstruct數(shù)據(jù)集進(jìn)行評(píng)估,使用DeBERTa作為PAIRRANKER的主干,GENFUSER則是基于Flan-T5-XL ,實(shí)驗(yàn)結(jié)果如下表所示。

e07055b4-0749-11ee-962d-dac502259ad0.png

主要結(jié)果

LLM具有不同的優(yōu)勢(shì)和劣勢(shì)

根據(jù)ChatGPT確定LLM的平均等級(jí),按排序順序顯示LLM。在這些模型中,Open Assistant、Vicuna和Alpaca是表現(xiàn)最好的三項(xiàng),繼它們之后為Baize、Moss和ChatGLM,也在MixInstruction上表現(xiàn)出色。相反,Mosaic MPT、StableLM和Flan-T5在評(píng)估中排名倒數(shù)第三。盡管如此,top/bottom模型的平均GPT排名與first/last位置保持著明顯的距差距,這突出了組合LLM的重要性。

頂級(jí)LLM并不總是最好的

盡管OA和Vic表現(xiàn)得非常好,但仍有很大一部分示例顯示其他LLM優(yōu)于它們。例如,Koala的平均GPT-Rank為6.76,但大約40%的示例表明Koala產(chǎn)生了更好或同樣優(yōu)于OA和Vic的結(jié)果。這進(jìn)一步強(qiáng)調(diào)了使用LLM-BLENDER框架進(jìn)行排名和融合的重要性。

NLG Metrics

根據(jù)每個(gè)Metrics本身對(duì)oracle選擇的性能進(jìn)行了全面分析。研究結(jié)果表明,這些選擇在其他指標(biāo)上也表現(xiàn)出良好的性能。這一觀察結(jié)果證實(shí)了使用BARTScore為PAIRRANKER提供監(jiān)督的合理性。

PAIRRANKE的表現(xiàn)優(yōu)于其他排名工具

MLM-Scoring無(wú)法勝出random selection,突出了其無(wú)監(jiān)督范式的局限性。相反,與BARTScore和GPT-Rank的最佳模型(OA)相比,SimCLS、SummaReranker和PAIRRANKER表現(xiàn)出更好的性能。值得注意的是,PAIRRANKER選擇的響應(yīng)的平均GPT排名顯著優(yōu)于最佳模型,以及所有其他排名。

LLM-BLENDER 是最好的

使用從PAIRRANKER中選出的前三名,并將其作為GENFUSER的候選。在此的基礎(chǔ)上,LLM-BLENDER展示了預(yù)期的卓越性能。

排名相關(guān)性

除了只關(guān)注每個(gè)排名的top-1之外,還對(duì)所有具有GPT排名的候選之間的總體排名相關(guān)性進(jìn)行了全面分析。事實(shí)證明,BARTScore與GPT排名的相關(guān)性最高,這表明使用BARTScore提供監(jiān)督為訓(xùn)練。對(duì)于排序器來(lái)說(shuō),MLM得分仍然無(wú)法超過(guò)random permutations。

更多分析

將PAIRRANKER應(yīng)用于三個(gè)典型的自然語(yǔ)言生成(NLG)任務(wù):摘要、機(jī)器翻譯和約束文本生成。發(fā)現(xiàn)PAIRRANKER在使用單個(gè)相同的基礎(chǔ)模型解碼N個(gè)候選者(使用不同的算法)的上下文中仍然大大優(yōu)于其他方法。

總結(jié)

本文引入了LLM-BLENDER,這是一個(gè)創(chuàng)新的集成框架,通過(guò)利用多個(gè)開(kāi)源LLM的不同優(yōu)勢(shì)來(lái)獲得持續(xù)卓越的性能。LLM-BLENDER通過(guò)排名的方式來(lái)減少單個(gè)LLM的弱點(diǎn),并通過(guò)融合生成來(lái)整合優(yōu)勢(shì),以提高LLM的能力。

總之,這是一篇非常有趣的文章,想了解更深入的話(huà),還是看下原論文吧~

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    404

    瀏覽量

    17890
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3518

    瀏覽量

    50405
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10787
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    325

    瀏覽量

    836

原文標(biāo)題:博采眾長(zhǎng)!我全都要!Allen AI推出集成主流大語(yǔ)言模型的LLM-BLENDER框架

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    LLM之外的性?xún)r(jià)比之選,小語(yǔ)言模型

    。然而在一些對(duì)實(shí)時(shí)性要求較高的應(yīng)用中,比如AI客服、實(shí)時(shí)數(shù)據(jù)分析等,大語(yǔ)言模型并沒(méi)有太大的優(yōu)勢(shì)。 ? 在動(dòng)輒萬(wàn)億參數(shù)的LLM下,硬件需求已經(jīng)遭受了不小的挑戰(zhàn)。所以面對(duì)一些相對(duì)簡(jiǎn)單的任務(wù)
    的頭像 發(fā)表于 06-03 05:15 ?2797次閱讀
    <b class='flag-5'>LLM</b>之外的性?xún)r(jià)比之選,小<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    無(wú)法在OVMS上運(yùn)行來(lái)自Meta的大型語(yǔ)言模型LLM),為什么?

    無(wú)法在 OVMS 上運(yùn)行來(lái)自 Meta 的大型語(yǔ)言模型LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲(chǔ)庫(kù)運(yùn)行 llama_chat Python* Demo 時(shí)遇到錯(cuò)誤。
    發(fā)表于 03-05 08:07

    NVIDIA AI平臺(tái)為大型語(yǔ)言模型帶來(lái)巨大收益

    隨著大型語(yǔ)言模型LLM )的規(guī)模和復(fù)雜性不斷增長(zhǎng), NVIDIA 今天宣布更新 NeMo Megatron 框架,提供高達(dá) 30% 的訓(xùn)練速度。
    的頭像 發(fā)表于 10-10 15:39 ?1167次閱讀
    NVIDIA <b class='flag-5'>AI</b>平臺(tái)為大型<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>帶來(lái)巨大收益

    基于Transformer的大型語(yǔ)言模型LLM)的內(nèi)部機(jī)制

    本文旨在更好地理解基于 Transformer 的大型語(yǔ)言模型LLM)的內(nèi)部機(jī)制,以提高它們的可靠性和可解釋性。 隨著大型語(yǔ)言模型
    的頭像 發(fā)表于 06-25 15:08 ?1936次閱讀
    基于Transformer的大型<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)的內(nèi)部機(jī)制

    現(xiàn)已公開(kāi)發(fā)布!歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語(yǔ)言模型推理

    能。該開(kāi)源程序庫(kù)現(xiàn)已作為 NVIDIA NeMo 框架的一部分,在 /NVIDIA/TensorRT-LLM GitHub 資源庫(kù)中免費(fèi)提供。 大語(yǔ)言模型徹底改變了人工智能領(lǐng)域,并創(chuàng)造
    的頭像 發(fā)表于 10-27 20:05 ?1507次閱讀
    現(xiàn)已公開(kāi)發(fā)布!歡迎使用 NVIDIA TensorRT-<b class='flag-5'>LLM</b> 優(yōu)化大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>推理

    Snowflake推出面向企業(yè)AI的大語(yǔ)言模型

    Snowflake公司近日推出了企業(yè)級(jí)AI模型——Snowflake Arctic,這是一款大型語(yǔ)言模型
    的頭像 發(fā)表于 05-07 10:03 ?696次閱讀

    語(yǔ)言模型(LLM)快速理解

    自2022年,ChatGPT發(fā)布之后,大語(yǔ)言模型(LargeLanguageModel),簡(jiǎn)稱(chēng)LLM掀起了一波狂潮。作為學(xué)習(xí)理解LLM的開(kāi)始,先來(lái)整體理解一下大
    的頭像 發(fā)表于 06-04 08:27 ?1836次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)快速理解

    llm模型和chatGPT的區(qū)別

    LLM(Large Language Model)是指大型語(yǔ)言模型,它們是一類(lèi)使用深度學(xué)習(xí)技術(shù)構(gòu)建的自然語(yǔ)言處理(NLP)模型。
    的頭像 發(fā)表于 07-09 09:55 ?2000次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語(yǔ)言模型)是一種深度學(xué)習(xí)模型,主要用于處理自然語(yǔ)言處理(NLP)任務(wù)。
    的頭像 發(fā)表于 07-09 09:59 ?1389次閱讀

    LLM模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語(yǔ)言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)
    的頭像 發(fā)表于 07-24 11:38 ?1804次閱讀

    新品|LLM Module,離線大語(yǔ)言模型模塊

    。NewModuleLLMLLMModule是一款集成化的離線大語(yǔ)言模型LLM)推理模塊,無(wú)需云端,即可提供流暢自然的AI體驗(yàn)。產(chǎn)品搭載愛(ài)
    的頭像 發(fā)表于 11-02 08:08 ?1040次閱讀
    新品|<b class='flag-5'>LLM</b> Module,離線大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>模塊

    什么是LLMLLM在自然語(yǔ)言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語(yǔ)言處理(NLP)領(lǐng)域迎來(lái)了革命性的進(jìn)步。其中,大型語(yǔ)言模型LLM)的出現(xiàn),標(biāo)志著我們對(duì)語(yǔ)言理解能力的一次
    的頭像 發(fā)表于 11-19 15:32 ?3640次閱讀

    語(yǔ)言模型開(kāi)發(fā)框架是什么

    語(yǔ)言模型開(kāi)發(fā)框架是指用于訓(xùn)練、推理和部署大型語(yǔ)言模型的軟件工具和庫(kù)。下面,AI部落小編為您介紹
    的頭像 發(fā)表于 12-06 10:28 ?523次閱讀

    新品| LLM630 Compute Kit,AI語(yǔ)言模型推理開(kāi)發(fā)平臺(tái)

    處理器,集成了3.2TOPs@INT8算力的高能效NPU,提供強(qiáng)大的AI推理能力,能夠高效執(zhí)行復(fù)雜的視覺(jué)(CV)及大語(yǔ)言模型(LLM)任務(wù),
    的頭像 發(fā)表于 01-17 18:48 ?689次閱讀
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,<b class='flag-5'>AI</b> 大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>推理開(kāi)發(fā)平臺(tái)

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語(yǔ)言模型

    在當(dāng)今人工智能領(lǐng)域,大型語(yǔ)言模型LLM)的開(kāi)發(fā)已經(jīng)成為一個(gè)熱門(mén)話(huà)題。這些模型通過(guò)學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語(yǔ)言文本,完成各種復(fù)雜的任
    的頭像 發(fā)表于 04-30 18:34 ?488次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) <b class='flag-5'>LLM</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>