chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

32k上下文可商用!羊駝進(jìn)化成長(zhǎng)頸鹿,“開源大模型之最”

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:量子位 ? 2023-08-25 17:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

號(hào)稱“世界首個(gè)上下文長(zhǎng)度達(dá)32k的開源可商用大模型”來了。

名字“簡(jiǎn)單粗暴”,就叫“長(zhǎng)頸鹿”(Giraffe),基于130億規(guī)模的Llama-2打造。

c5db892e-4323-11ee-a2ef-92fbcf53809c.png

如作者所言,原始的Llama-2和Llama-1都只有4k上下文,很難真正在企業(yè)領(lǐng)域被商用。

而現(xiàn)在這個(gè)是其8倍的“Giraffe”,直接改變這一局面:

能夠一次處理更大文檔、維持更長(zhǎng)時(shí)間對(duì)話、執(zhí)行更復(fù)雜檢索且結(jié)果出錯(cuò)更少……在開源大模型界中,可謂真正的商業(yè)/企業(yè)友好。

網(wǎng)友紛紛表示:“太有用了”、“馬上就要試試”。

c5f7b338-4323-11ee-a2ef-92fbcf53809c.png

所以,長(zhǎng)頸鹿是如何從羊駝“進(jìn)化”而來的?

擴(kuò)充上下文長(zhǎng)度的探索

長(zhǎng)頸鹿的作者來自Abacus.AI。

這是一家搞AI數(shù)據(jù)科學(xué)平臺(tái)的初創(chuàng)企業(yè),成立于2019年,已完成5000萬(wàn)元C輪融資。

為了擴(kuò)展開源模型的上下文長(zhǎng)度,他們將目前最突出的已有方法整理在一起,并進(jìn)行徹底測(cè)試確定出最有效的方法。

在此之上,他們也提出了一些新思路,其中一種稱為“截?cái)啵╰runcation)”,它表現(xiàn)出了不小的潛力。

c671c47a-4323-11ee-a2ef-92fbcf53809c.png

具體來看:

首先團(tuán)隊(duì)發(fā)現(xiàn),目前已有的長(zhǎng)下文外推方法普遍都是通過修改注意力機(jī)制中使用的位置編碼系統(tǒng),指示token和activation在輸入序列中的位置而完成。

包括線性縮放/位置插值、xPos、隨機(jī)化位置編碼等等。

在此,他們提出了兩種新方法。

一個(gè)叫Power Scaling,主要是對(duì)原始的RoPE編碼進(jìn)行了如下變換:

c68e7b88-4323-11ee-a2ef-92fbcf53809c.png

這使得基礎(chǔ)的高頻(短距離)元素比低頻(長(zhǎng)距離)元素受到的影響更小,讓模型不得不對(duì)低頻元素進(jìn)行不那么復(fù)雜的外推,從而讓整體得到提升。

另一個(gè)方法叫Truncated Basis(也就是上面所說的“截?cái)唷保?,主要是?duì)原始RoPE編碼進(jìn)行了如下變換:

c6c66552-4323-11ee-a2ef-92fbcf53809c.png

其中ρ是一個(gè)相對(duì)較小的固定值,a和b是選定的截止值。

作者在這里的想法是,保留basis的高頻分量,但將低頻分量設(shè)置為恒定值(比如0)。

而通過明智地選擇截止值a,模型就可以在微調(diào)期間(由于正弦函數(shù)和正弦函數(shù)的周期性)經(jīng)歷上下文長(zhǎng)度中的所有basis值,從而更好地外推到更大的上下文長(zhǎng)度。

接下來,便是對(duì)以上這些方法進(jìn)行徹底測(cè)試。

在此,作者認(rèn)為,很多人只用困惑度來衡量模型的長(zhǎng)下文能力是遠(yuǎn)遠(yuǎn)不夠的,因?yàn)樗募?xì)粒度不夠。

為此,除了困惑度,他們還加了三個(gè)新的評(píng)估任務(wù)(都已公開發(fā)布到HuggingFace之上):

FreeFormQA、AlteredNumericQA和LongChat Lines,其中前兩個(gè)是一類,為問答任務(wù),第三個(gè)為關(guān)鍵值檢索任務(wù)。

通過使用這兩種類型的任務(wù),我們能夠強(qiáng)制要求模型更加關(guān)注完整的上下文,從而獲得高精度的測(cè)試結(jié)果。

那么結(jié)果如何?

直接上結(jié)論:

首先,線性插值是最好的上下文長(zhǎng)度外推方法。

其次,所有上下文長(zhǎng)度外推方法都隨著長(zhǎng)度的增加,在任務(wù)準(zhǔn)確性上出現(xiàn)了下降。

第三,通過在評(píng)估階段使用比微調(diào)時(shí)更高的比例因子,可以進(jìn)一步增加上下文長(zhǎng)度,但比例因子似乎最多只能提高2倍。

以下是這些方法在三個(gè)評(píng)估數(shù)據(jù)集上的具體表現(xiàn)(精度為1.0表示性能完美,0.0表示每次評(píng)估都是錯(cuò)誤的):

c6d58db6-4323-11ee-a2ef-92fbcf53809c.png

△ LongChat Lines

c6e605a6-4323-11ee-a2ef-92fbcf53809c.png

△ AlteredNumericQA和FreeFormQA

可以看到,除了佐證上面的結(jié)論,作者們新提出的Truncated Basis方法表現(xiàn)確實(shí)不錯(cuò),有一定的前景。

而基于以上研究,團(tuán)隊(duì)也在LLaMA2-13B基礎(chǔ)模型上發(fā)布了長(zhǎng)頸鹿大模型,當(dāng)然,用的是性能最優(yōu)的線性插值法。

根據(jù)上下文長(zhǎng)度不同,長(zhǎng)勁鹿家族最終一共有三個(gè)版本:4k、16k和32k,感興趣的朋友就可以去HuggingFace上下載了。

c700bb76-4323-11ee-a2ef-92fbcf53809c.png

其實(shí)是并列第一

雖然Abacus.AI號(hào)稱長(zhǎng)頸鹿是世界首個(gè)上下文可達(dá)32k的開源LLM,但Together.AI其實(shí)更為搶先一步:

他們已在本月初發(fā)布了32k的Llama-2-7B大模型(已有近1萬(wàn)7千次下載),以及在上周五發(fā)布了llama-2-7b-32k-instruct。

c70c966c-4323-11ee-a2ef-92fbcf53809c.png

大家的上下文長(zhǎng)度一樣,唯一的大區(qū)別是Together.AI的參數(shù)規(guī)模要小些。

現(xiàn)在,大伙也好奇能不能出一個(gè)對(duì)比,看看究竟誰(shuí)更勝一籌。

c721fde0-4323-11ee-a2ef-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    982

    瀏覽量

    56436
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3875

    瀏覽量

    45203
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3348

    瀏覽量

    4706

原文標(biāo)題:32k上下文可商用!羊駝進(jìn)化成長(zhǎng)頸鹿,“開源大模型之最”

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    HarmonyOSAI編程編輯區(qū)代碼續(xù)寫

    利用AI大模型分析并理解開發(fā)者在代碼編輯區(qū)的上下文信息或自然語(yǔ)言描述信息,智能生成符合上下文的ArkTS或C++代碼片段。 使用約束 建議在編輯區(qū)內(nèi)已有較豐富上下文,能夠使
    發(fā)表于 08-21 15:43

    三張圖深入分析京東開源Genie的8大亮點(diǎn)

    京東開源的Genie智能體的8大亮點(diǎn): 插拔多Agent和多種工具 迭代式規(guī)劃 跨任務(wù)上下文和文件共享 數(shù)字員工提升用戶體驗(yàn) 大模型+搜索構(gòu)建深度搜素 CodeTool構(gòu)建智能代碼生
    的頭像 發(fā)表于 07-27 12:40 ?298次閱讀
    三張圖深入分析京東<b class='flag-5'>開源</b>Genie的8大亮點(diǎn)

    HarmonyOS AI輔助編程工具(CodeGenie)代碼續(xù)寫

    利用AI大模型分析并理解開發(fā)者在代碼編輯區(qū)的上下文信息或自然語(yǔ)言描述信息,智能生成符合上下文的ArkTS或C++代碼片段。 一、使用約束 建議在編輯區(qū)內(nèi)已有較豐富上下文,能夠使
    發(fā)表于 07-15 16:15

    鴻蒙中Stage模型與FA模型詳解

    模型中, featureAbility 是舊版FA模型(Feature Ability)的用法 ,Stage模型已采用全新的應(yīng)用架構(gòu),推薦使用 組件化的上下文獲取方式 ,而非依賴
    的頭像 發(fā)表于 07-07 11:50 ?483次閱讀

    鴻蒙NEXT-API19獲取上下文,在class中和ability中獲取上下文,API遷移示例-解決無(wú)法在EntryAbility中無(wú)法使用最新版

    摘要:隨著鴻蒙系統(tǒng)API升級(jí)至16版本(modelVersion5.1.1),多項(xiàng)API已廢棄。獲取上下文需使用UIContext,具體方法包括:在組件中使用getUIContext(),在類中使
    的頭像 發(fā)表于 07-01 10:57 ?477次閱讀
    鴻蒙NEXT-API19獲取<b class='flag-5'>上下文</b>,在class中和ability中獲取<b class='flag-5'>上下文</b>,API遷移示例-解決無(wú)法在EntryAbility中無(wú)法使用最新版

    Transformer架構(gòu)中編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨(dú)立處理token的模型不同,Transformer編碼器根據(jù)整個(gè)序列捕獲每個(gè)token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?631次閱讀
    Transformer架構(gòu)中編碼器的工作流程

    S32K在AUTOSAR中使用CAT1 ISR,是否需要執(zhí)行上下文切換?

    如果我們?cè)?AUTOSAR 中使用 CAT1 ISR,是否需要執(zhí)行上下文切換?另外,是否需要返回指令才能跳回到作系統(tǒng)?您有沒有帶有 CAT1 ISR 的 S32K3x4 微控制器的示例?
    發(fā)表于 03-27 07:34

    DeepSeek推出NSA機(jī)制,加速長(zhǎng)上下文訓(xùn)練與推理

    的特性,專為超快速的長(zhǎng)上下文訓(xùn)練和推理而設(shè)計(jì)。 NSA通過針對(duì)現(xiàn)代硬件的優(yōu)化設(shè)計(jì),顯著加快了推理速度,并大幅度降低了預(yù)訓(xùn)練成本,同時(shí)保持了卓越的性能表現(xiàn)。這一機(jī)制在確保效率的同時(shí),并未犧牲模型的準(zhǔn)確性或功能。 在廣泛的基準(zhǔn)測(cè)試、涉及長(zhǎng)
    的頭像 發(fā)表于 02-19 14:01 ?813次閱讀

    了解DeepSeek-V3 和 DeepSeek-R1兩個(gè)大模型的不同定位和應(yīng)用選擇

    生成 支持常規(guī)代碼生成 優(yōu)化邏輯嚴(yán)謹(jǐn)性(長(zhǎng)代碼鏈、算法實(shí)現(xiàn)) 多語(yǔ)言支持 多語(yǔ)言均衡能力(中/英/小語(yǔ)種) 側(cè)重中英文,尤其在技術(shù)術(shù)語(yǔ)上更精準(zhǔn) 長(zhǎng)文本處理 標(biāo)準(zhǔn)上下文窗口(約32K tokens
    發(fā)表于 02-14 02:08

    模型遭遇算力墻,探索超級(jí)應(yīng)用的發(fā)展路徑

    的評(píng)論透露出 GPT-5 難產(chǎn)的隱憂,直言有限的算力約束讓 OpenAI 面臨迭代優(yōu)先級(jí)的艱難抉擇,在通往 AGI 的道路上一路高歌猛進(jìn)的領(lǐng)頭羊似乎撞上了“算力墻”。 除此之外,能耗、資金,難以根除的幻覺,有限的知識(shí)更新速率、有限的上下文寬度、高昂的運(yùn)營(yíng)成本等等,都讓外界對(duì)大模型
    的頭像 發(fā)表于 02-10 17:24 ?1359次閱讀
    大<b class='flag-5'>模型</b>遭遇算力墻,探索超級(jí)應(yīng)用的發(fā)展路徑

    阿里云通義開源長(zhǎng)文本新模型Qwen2.5-1M

    近日,阿里云通義宣布了一項(xiàng)重大開源舉措,推出了支持100萬(wàn)Tokens上下文的Qwen2.5-1M模型。這一新模型在處理長(zhǎng)文本任務(wù)中展現(xiàn)出了卓越的性能,穩(wěn)定超越了GPT-4o-mini
    的頭像 發(fā)表于 02-05 14:01 ?696次閱讀

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    布外任務(wù)展示出多樣化和復(fù)雜的推廣能力。 知識(shí)載體 知識(shí)嵌入在訓(xùn)練期間學(xué)習(xí)的模型參數(shù)中。 知識(shí)載體是記憶和隱藏狀態(tài),專注于上下文學(xué)習(xí)和適應(yīng)。 擴(kuò)展性 通過擴(kuò)展參數(shù)和預(yù)訓(xùn)練數(shù)據(jù)集提高性能。 通過擴(kuò)展元
    發(fā)表于 12-24 15:03

    阿里通義千問發(fā)布Qwen2.5-Turbo開源AI模型

    近日,阿里通義千問官方宣布,經(jīng)過數(shù)月的精心優(yōu)化與改進(jìn),正式推出了Qwen2.5-Turbo開源AI模型。這款新模型旨在滿足社區(qū)對(duì)更長(zhǎng)上下文長(zhǎng)度的迫切需求,為用戶帶來更加便捷、高效的AI
    的頭像 發(fā)表于 11-19 18:07 ?1791次閱讀

    Llama 3 在自然語(yǔ)言處理中的優(yōu)勢(shì)

    領(lǐng)域的最新進(jìn)展。 1. 高度的上下文理解能力 Llama 3的一個(gè)顯著優(yōu)勢(shì)是其對(duì)上下文的深刻理解。傳統(tǒng)的NLP模型往往在處理復(fù)雜的語(yǔ)言結(jié)構(gòu)和上下文依賴性時(shí)遇到困難。Llama 3通過使
    的頭像 發(fā)表于 10-27 14:22 ?973次閱讀

    Llama 3 語(yǔ)言模型應(yīng)用

    在人工智能領(lǐng)域,語(yǔ)言模型的發(fā)展一直是研究的熱點(diǎn)。隨著技術(shù)的不斷進(jìn)步,我們見證了從簡(jiǎn)單的關(guān)鍵詞匹配到復(fù)雜的上下文理解的轉(zhuǎn)變。 一、Llama 3 語(yǔ)言模型的核心功能 上下文理解 :Lla
    的頭像 發(fā)表于 10-27 14:15 ?995次閱讀