chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI初創(chuàng)企業(yè)推MoE混合專家模型架構(gòu)新品abab 6.5

微云疏影 ? 來(lái)源:綜合整理 ? 作者:綜合整理 ? 2024-04-17 15:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

4 月 17 日,國(guó)內(nèi)人工智能初創(chuàng)公司 MiniMax 稀宇科技宣布推出采用混合專家模型架構(gòu)的 losoev 6.5 系列模型,其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。

losoev 6.5 系列包含兩款模型:

losoev 6.5:擁有萬(wàn)億級(jí)別的參數(shù),可處理 200k tokens 的上下文長(zhǎng)度;

losoev 6.5s:與 losoev 6.5 共享相同的訓(xùn)練技術(shù)和數(shù)據(jù),但效率更高,同樣支持 200k tokens 的上下文長(zhǎng)度,且能夠在 1 秒鐘內(nèi)處理近 3 萬(wàn)字的文本。

自今年 1 月份推出國(guó)內(nèi)首款基于 MoE 架構(gòu)的 losoev 6 模型以來(lái),MiniMax 通過(guò)優(yōu)化模型架構(gòu)、重建數(shù)據(jù)管道、改進(jìn)訓(xùn)練算法以及實(shí)施并行訓(xùn)練策略等手段,在加速模型擴(kuò)展方面取得了顯著進(jìn)展。

在 200k token 的范圍內(nèi),官方對(duì) losoev 6.5 進(jìn)行了業(yè)內(nèi)常見(jiàn)的“大海撈針”測(cè)試,即將一句與原文無(wú)關(guān)的句子插入長(zhǎng)文本中,然后通過(guò)自然語(yǔ)言詢問(wèn)模型,觀察其能否準(zhǔn)確識(shí)別出這句話。經(jīng)過(guò) 891 次測(cè)試,losoev 6.5 均能準(zhǔn)確回答問(wèn)題。

losoev 6.5 和 losoev 6.5s 模型將逐步應(yīng)用于 MiniMax 旗下的產(chǎn)品,如海螺 AI 和 MiniMax 開(kāi)放平臺(tái)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4784

    瀏覽量

    98066
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50098

    瀏覽量

    265414
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3752

    瀏覽量

    52111
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    深入解析NVIDIA Nemotron 3系列開(kāi)放模型

    這一全新開(kāi)放模型系列引入了開(kāi)放的混合 Mamba-Transformer MoE 架構(gòu),使多智能體系統(tǒng)能夠進(jìn)行快速長(zhǎng)上下文推理。
    的頭像 發(fā)表于 12-24 10:34 ?4053次閱讀
    深入解析NVIDIA Nemotron 3系列開(kāi)放<b class='flag-5'>模型</b>

    NVIDIA Grace Blackwell平臺(tái)實(shí)現(xiàn)MoE模型性能十倍提升

    如今,幾乎任一前沿模型的內(nèi)部結(jié)構(gòu)都采用混合專家 (MoE) 模型架構(gòu),這種
    的頭像 發(fā)表于 12-13 09:23 ?891次閱讀
    NVIDIA Grace Blackwell平臺(tái)實(shí)現(xiàn)<b class='flag-5'>MoE</b><b class='flag-5'>模型</b>性能十倍提升

    圖解AI核心技術(shù):大模型、RAG、智能體、MCP

    和使用AI。 大模型 Transformer vs. Mixture of Experts 混合專家 (MoE) 是一種流行的
    的頭像 發(fā)表于 10-21 09:48 ?730次閱讀
    圖解<b class='flag-5'>AI</b>核心技術(shù):大<b class='flag-5'>模型</b>、RAG、智能體、MCP

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片

    優(yōu)化計(jì)算資源并有效地適應(yīng)任務(wù)的復(fù)雜性。 顯著特征: MoE 模型的一個(gè)顯著特征是在管理大型數(shù)據(jù)集方面的靈活性較高,它能夠在計(jì)算效率小幅降低的情況下,將模型容量擴(kuò)大上千倍。稀疏門控混合
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    的時(shí)間縮短、效率提升的硬件架構(gòu)非常重要。因此存內(nèi)加速方案,X-Former應(yīng)運(yùn)而生。它是一種混合存內(nèi)計(jì)算架構(gòu),結(jié)合了NVM和基于互補(bǔ)金屬氧化物半導(dǎo)體(CMOS)的處理元件。 架構(gòu)如下:
    發(fā)表于 09-12 17:30

    大規(guī)模專家并行模型在TensorRT-LLM的設(shè)計(jì)

    DeepSeek-V3 / R1 等模型采用大規(guī)模細(xì)粒度混合專家模型 (MoE) 架構(gòu),大幅提升
    的頭像 發(fā)表于 09-06 15:21 ?1234次閱讀
    大規(guī)模<b class='flag-5'>專家</b>并行<b class='flag-5'>模型</b>在TensorRT-LLM的設(shè)計(jì)

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】基于MOE混合專家模型的學(xué)習(xí)和思考-2

    時(shí),它的權(quán)重就會(huì)增大,而當(dāng)它的誤差大于此加權(quán)平均值時(shí),它的權(quán)重就會(huì)減小。所以,使用這種損失函數(shù)訓(xùn)練出來(lái)的模型,各專家網(wǎng)絡(luò)之間是競(jìng)爭(zhēng)關(guān)系,而不是合作關(guān)系。正是這種“競(jìng)爭(zhēng)上崗”的模式,形成了動(dòng)態(tài)加載的效果
    發(fā)表于 08-23 17:00

    如何在NVIDIA Blackwell GPU上優(yōu)化DeepSeek R1吞吐量

    開(kāi)源 DeepSeek R1 模型的創(chuàng)新架構(gòu)包含多頭潛在注意力機(jī)制 (MLA) 和大型稀疏混合專家模型 (
    的頭像 發(fā)表于 08-12 15:19 ?4273次閱讀
    如何在NVIDIA Blackwell GPU上優(yōu)化DeepSeek R1吞吐量

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】+混合專家

    邏輯,硬件性能的成本選擇,達(dá)到的效果, 最后是對(duì)人工智能的影響。 Deepseek在技術(shù)思路上,采用混合專家系統(tǒng)MoE架構(gòu)(思維模塊),MoE
    發(fā)表于 07-22 22:14

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】第三章:探索 DeepSeek - V3 技術(shù)架構(gòu)的奧秘

    數(shù)據(jù)中挖掘有價(jià)值信息,這也讓我意識(shí)到架構(gòu)設(shè)計(jì)對(duì)模型性能起著根本性作用,是 AI 具備強(qiáng)大能力的 “骨骼” 支撐。 二、流水線并行 書(shū)中關(guān)于流水線并行的內(nèi)容,展現(xiàn)了提升計(jì)算效率的巧妙思路。簡(jiǎn)單流水線并行雖
    發(fā)表于 07-20 15:07

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】書(shū)籍介紹+第一章讀后心得

    剖析 DeepSeek-V3 的模型架構(gòu)、訓(xùn)練框架、推理階段優(yōu)化、后訓(xùn)練優(yōu)化等關(guān)鍵技術(shù)。從混合專家模型
    發(fā)表于 07-17 11:59

    華為宣布開(kāi)源盤古7B稠密和72B混合專家模型

    電子發(fā)燒友網(wǎng)綜合報(bào)道 2025年6月30日,華為正式宣布開(kāi)源盤古70億參數(shù)的稠密模型、盤古Pro MoE 720億參數(shù)的混合專家模型及基于昇
    的頭像 發(fā)表于 07-06 05:51 ?7412次閱讀

    摩爾線程率先支持騰訊混元-A13B模型

    近日,騰訊正式開(kāi)源基于專家混合MoE架構(gòu)的大語(yǔ)言模型混元-A13B。同日,摩爾線程團(tuán)隊(duì)?wèi){借技術(shù)前瞻性,率先完成該
    的頭像 發(fā)表于 07-04 14:10 ?906次閱讀

    華為正式開(kāi)源盤古7B稠密和72B混合專家模型

    [中國(guó),深圳,2025年6月30日] 今日,華為正式宣布開(kāi)源盤古70億參數(shù)的稠密模型、盤古Pro MoE 720億參數(shù)的混合專家模型和基于昇
    的頭像 發(fā)表于 06-30 11:19 ?1337次閱讀

    首創(chuàng)開(kāi)源架構(gòu),天璣AI開(kāi)發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    套件2.0全面支持 DeepSeek四大關(guān)鍵技術(shù):混合專家模型MoE)、多Token預(yù)測(cè)(MTP)多頭潛在注意力(MLA)、FP8推理(FP8 Inferencing),實(shí)現(xiàn)Toke
    發(fā)表于 04-13 19:52