chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

8x7B MoE與Flash Attention 2結(jié)合,不到10行代碼實(shí)現(xiàn)快速推理

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:機(jī)器之心 ? 2024-01-04 16:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前段時(shí)間,Mistral AI 公布的 Mixtral 8x7B 模型爆火整個(gè)開(kāi)源社區(qū),其架構(gòu)與 GPT-4 非常相似,很多人將其形容為 GPT-4 的「縮小版」。

我們都知道,OpenAI 團(tuán)隊(duì)一直對(duì) GPT-4 的參數(shù)量和訓(xùn)練細(xì)節(jié)守口如瓶。Mistral 8x7B 的放出,無(wú)疑給廣大開(kāi)發(fā)者提供了一種「非常接近 GPT-4」的開(kāi)源選項(xiàng)。

在基準(zhǔn)測(cè)試中,Mistral 8x7B 的表現(xiàn)優(yōu)于 Llama 2 70B,在大多數(shù)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試上與 GPT-3.5 不相上下,甚至略勝一籌。

5e8e9c7c-aa00-11ee-8b88-92fbcf53809c.png5e9b6678-aa00-11ee-8b88-92fbcf53809c.png▲圖源 https://mistral.ai/news/mixtral-of-experts/

隨著這項(xiàng)研究的出現(xiàn),很多人表示:「閉源大模型已經(jīng)走到了結(jié)局?!?/span> 5e9fa184-aa00-11ee-8b88-92fbcf53809c.png

短短幾周的時(shí)間,機(jī)器學(xué)習(xí)愛(ài)好者 Vaibhav (VB) Srivastav 表示:隨著 AutoAWQ(支持 Mixtral、LLaVa 等模型的量化)最新版本的發(fā)布,現(xiàn)在用戶可以將 Mixtral 8x7B Instruct 與 Flash Attention 2 結(jié)合使用,達(dá)到快速推理的目的,實(shí)現(xiàn)這一功能大約只需 24GB GPU VRAM、不到十行代碼。 5ea3abda-aa00-11ee-8b88-92fbcf53809c.png▲圖源 https://twitter.com/reach_vb/status/1741175347821883502

AutoAWQ地址:

https://github.com/casper-hansen/AutoAWQ 操作過(guò)程是這樣的: 首先是安裝 AutoAWQ 以及 transformers

pipinstallautoawqgit+https://github.com/huggingface/transformers.git
第二步是初始化 tokenizer 和模型: 5eaa2c8a-aa00-11ee-8b88-92fbcf53809c.png ?第三步是初始化 TextStreamer: 5eae1264-aa00-11ee-8b88-92fbcf53809c.png ?第四步對(duì)輸入進(jìn)行 Token 化: 5eb31566-aa00-11ee-8b88-92fbcf53809c.png ?第五步生成: 5eb7ddda-aa00-11ee-8b88-92fbcf53809c.png ?當(dāng)你配置好項(xiàng)目后,就可以與 Mixtral 進(jìn)行對(duì)話,例如對(duì)于用戶要求「如何做出最好的美式咖啡?通過(guò)簡(jiǎn)單的步驟完成」,Mixtral 會(huì)按照 1、2、3 等步驟進(jìn)行回答。

5ec0113a-aa00-11ee-8b88-92fbcf53809c.png

項(xiàng)目中使用的代碼:

5ec86e84-aa00-11ee-8b88-92fbcf53809c.png

Srivastav 表示上述實(shí)現(xiàn)也意味著用戶可以使用 AWQ 運(yùn)行所有的 Mixtral 微調(diào),并使用 Flash Attention 2 來(lái)提升它們。 看到這項(xiàng)研究后,網(wǎng)友不禁表示:真的很酷。

5ecdb254-aa00-11ee-8b88-92fbcf53809c.png ?5ed1689a-aa00-11ee-8b88-92fbcf53809c.png


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4894

    瀏覽量

    70458
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    16013
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1204

    瀏覽量

    8754

原文標(biāo)題:8x7B MoE與Flash Attention 2結(jié)合,不到10行代碼實(shí)現(xiàn)快速推理

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    華為正式開(kāi)源盤古7B稠密和72B混合專家模型

    關(guān)鍵舉措,推動(dòng)大模型技術(shù)的研究與創(chuàng)新發(fā)展,加速推進(jìn)人工智能在千百業(yè)的應(yīng)用與價(jià)值創(chuàng)造。 盤古Pro MoE 72B模型權(quán)重、基礎(chǔ)推理代碼,已
    的頭像 發(fā)表于 06-30 11:19 ?173次閱讀

    帶增益的 RX 分集 FEM(B26、B8、B20、B1/4、B3 和 B7) skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()帶增益的 RX 分集 FEM(B26、B8、B20、B1/4、B3 和 B7
    發(fā)表于 06-27 18:31
    帶增益的 RX 分集 FEM(<b class='flag-5'>B</b>26、<b class='flag-5'>B8</b>、<b class='flag-5'>B</b>20、<b class='flag-5'>B</b>1/4、<b class='flag-5'>B</b>3 和 <b class='flag-5'>B7</b>) skyworksinc

    具有載波聚合的 RX 分集 FEM(B26、B8、B12/13、B2/25、B4 和 B7) skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()具有載波聚合的 RX 分集 FEM(B26、B8、B12/13、B2/25、B4 和
    發(fā)表于 06-19 18:35
    具有載波聚合的 RX 分集 FEM(<b class='flag-5'>B</b>26、<b class='flag-5'>B8</b>、<b class='flag-5'>B</b>12/13、<b class='flag-5'>B2</b>/25、<b class='flag-5'>B</b>4 和 <b class='flag-5'>B7</b>) skyworksinc

    潤(rùn)和軟件StackRUNS異構(gòu)分布式推理框架的應(yīng)用案例

    江蘇潤(rùn)和軟件股份有限公司(以下簡(jiǎn)稱“潤(rùn)和軟件”)自主研發(fā)的StackRUNS異構(gòu)分布式推理框架已在實(shí)際場(chǎng)景中取得顯著成效,成功應(yīng)用于大型園區(qū)多模態(tài)模型演練及高校滿血版DeepSeek-MoE 671B的運(yùn)行,有效推動(dòng)了大模型技術(shù)
    的頭像 發(fā)表于 06-13 09:11 ?375次閱讀
    潤(rùn)和軟件StackRUNS異構(gòu)分布式<b class='flag-5'>推理</b>框架的應(yīng)用案例

    代碼革命的先鋒:aiXcoder-7B模型介紹

    ? ? 國(guó)內(nèi)開(kāi)源代碼大模型 4月9日aiXcoder宣布正式開(kāi)源其7B模型Base版,僅僅過(guò)去一個(gè)禮拜,aiXcoder-7B在軟件源代碼托管服務(wù)平臺(tái)GitHub上的Star數(shù)已超過(guò)
    的頭像 發(fā)表于 05-20 14:41 ?198次閱讀
    <b class='flag-5'>代碼</b>革命的先鋒:aiXcoder-<b class='flag-5'>7B</b>模型介紹

    基于小凌派RK2206開(kāi)發(fā)板:OpenHarmony如何使用IoT接口控制FLASH外設(shè)

    ] = a [7] = a [8] = a [9] = a [10] = a [11] = a [12] = a [13] = a [14] = a [15] = a Fla
    發(fā)表于 04-22 15:02

    具有載波聚合的 RX 分集 FEM(B26、B8B20、B1/4、B3 和 B7) skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()具有載波聚合的 RX 分集 FEM(B26、B8、B20、B1/4、B3 和 B
    發(fā)表于 04-11 15:26
    具有載波聚合的 RX 分集 FEM(<b class='flag-5'>B</b>26、<b class='flag-5'>B8</b>、<b class='flag-5'>B</b>20、<b class='flag-5'>B</b>1/4、<b class='flag-5'>B</b>3 和 <b class='flag-5'>B7</b>) skyworksinc

    7路達(dá)林頓驅(qū)動(dòng)的16KB Flash ROM的AD型MCU AiP8F3201

    7路達(dá)林頓驅(qū)動(dòng)的16KB Flash ROM的AD型MCU AiP8F3201
    的頭像 發(fā)表于 03-24 10:09 ?393次閱讀
    <b class='flag-5'>7</b>路達(dá)林頓驅(qū)動(dòng)的16KB <b class='flag-5'>Flash</b> ROM的AD型MCU AiP<b class='flag-5'>8</b>F3201

    基于1F1BMoE A2A通信計(jì)算Overlap

    MoE 模型的訓(xùn)練過(guò)程中,EP rank 之間的 A2A 通信在端到端時(shí)間中占據(jù)了相當(dāng)大比重,對(duì)訓(xùn)練效率影響很大,特別是對(duì)于 Fine-grained MoE model,EP size 會(huì)比較大,跨機(jī)通信基本無(wú)法避免。那么
    的頭像 發(fā)表于 03-10 14:17 ?460次閱讀
    基于1F1<b class='flag-5'>B</b>的<b class='flag-5'>MoE</b> A<b class='flag-5'>2</b>A通信計(jì)算Overlap

    摩爾線程Round Attention優(yōu)化AI對(duì)話

    摩爾線程科研團(tuán)隊(duì)發(fā)布研究成果《Round Attention:以輪次塊稀疏性開(kāi)辟多輪對(duì)話優(yōu)化新范式》,該方法端到端延遲低于現(xiàn)在主流的Flash Attention推理引擎,kv-cac
    的頭像 發(fā)表于 03-06 09:39 ?519次閱讀
    摩爾線程Round <b class='flag-5'>Attention</b>優(yōu)化AI對(duì)話

    Flexus X 實(shí)例 C#/.Net Core 結(jié)合(git 代碼管理、docker 自定義鏡像)快速發(fā)布部署 - 讓你的項(xiàng)目飛起來(lái)~

    前言 ???云端部署新體驗(yàn),C# Web API 遇上 Git Docker,828 B2B 企業(yè)節(jié)特惠來(lái)襲!Flexus X 實(shí)例,為您的 C#應(yīng)用提供強(qiáng)大支撐,結(jié)合 Git 版本控制
    的頭像 發(fā)表于 12-25 21:15 ?559次閱讀
    Flexus <b class='flag-5'>X</b> 實(shí)例 C#/.Net Core <b class='flag-5'>結(jié)合</b>(git <b class='flag-5'>代碼</b>管理、docker 自定義鏡像)<b class='flag-5'>快速</b>發(fā)布部署 - 讓你的項(xiàng)目飛起來(lái)~

    獵戶星空發(fā)布Orion-MoE 8×7B大模型及AI數(shù)據(jù)寶AirDS

    近日,獵戶星空攜手聚云科技在北京共同舉辦了一場(chǎng)發(fā)布會(huì)。會(huì)上,獵戶星空正式揭曉了其自主研發(fā)的Orion-MoE 8×7B大模型,并與聚云科技聯(lián)合推出了基于該大模型的數(shù)據(jù)服務(wù)——AI數(shù)據(jù)寶AirDS
    的頭像 發(fā)表于 11-29 13:57 ?625次閱讀

    CC13x2x7和CC26x2x7 SimpleLink無(wú)線MCU技術(shù)參考手冊(cè)

    電子發(fā)燒友網(wǎng)站提供《CC13x2x7和CC26x2x7 SimpleLink無(wú)線MCU技術(shù)參考手冊(cè).pdf》資料免費(fèi)下載
    發(fā)表于 11-14 14:16 ?0次下載
    CC13<b class='flag-5'>x2x7</b>和CC26<b class='flag-5'>x2x7</b> SimpleLink無(wú)線MCU技術(shù)參考手冊(cè)

    阿里Qwen2-Math系列震撼發(fā)布,數(shù)學(xué)推理能力領(lǐng)跑全球

    阿里巴巴近期震撼發(fā)布了Qwen2-Math系列模型,這一系列模型基于其強(qiáng)大的Qwen2 LLM構(gòu)建,專為數(shù)學(xué)解題而生,展現(xiàn)了前所未有的數(shù)學(xué)推理能力。Qwen2-Math家族包括1.5
    的頭像 發(fā)表于 08-12 15:19 ?1144次閱讀

    PerfXCloud順利接入MOE大模型DeepSeek-V2

    今日,在 PerfXCloud 重磅更新支持 llama 3.1 之后,其平臺(tái)再度實(shí)現(xiàn)重大升級(jí)!目前,已順利接入被譽(yù)為全球最強(qiáng)的 MOE 大模型 DeepSeek-V2 ,已在 PerfXCloud(澎峰云)官網(wǎng)的體驗(yàn)中心對(duì)平臺(tái)
    的頭像 發(fā)表于 07-27 10:08 ?1227次閱讀
    PerfXCloud順利接入<b class='flag-5'>MOE</b>大模型DeepSeek-V<b class='flag-5'>2</b>